比率估计为什么精确.docVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
比率估计为什么精确

比率估计为什么精确 By 左辰 @ 2009-06-01 09:33 常规引用方式 左辰. 比率估计为什么精确. 统计之都, 2009.06. URL: /2009/06/why-ratio-estimation-is-more-accurate-in-sampling/. BibTeX引用 @ARTICLE , AUTHOR 左辰 , TITLE 比率估计为什么精确 , JOURNAL 统计之都 , YEAR 2009 , month 06 , URL /2009/06/why-ratio-estimation-is-more-accurate-in-sampling/ , 一、比率的方差估计式 比率估计量是抽样技术理论里一大重要估计量,其定义为两个总体总量或总体均值之比。借助适当的辅助变量,比率估计也可以得到主要变量的参数估计 由于通过辅助变量实质上引入了更多的信息,因此有理由猜测比率估计量可能更加精确。但是比率估计的方差和简单估计相比所谓的改进是否确切的存在,即使存在,改进的程度又有多大呢? 记总体大小为,抽样大小为,抽样比例为,辅助变量的总体值为,样本值为:主要变量的总体值为,样本值为。教材上常见的一个估计式是: 据此,可以给出主要变量相应参数的估计方差。以总体总值为例: 注意到上式使用了而不是“=”;也就是说是一个近似值。更确切地说,上式估计的只是一个方差下界,因为上式右端实质上是;而。可以看到,比率估计方差包括分子、分母两部分波动因素,而估计式中忽略了分母部分的波动,因此得到的方差估计是偏小的。 要使等号严格成立的条件是: 在有限总体的情况下,表示辅助变量恒为定值。注意:此时辅助变量已经没有意义了,因为它不能带来更多的信息,比率估计量与简单估计量的精度是完全相同的。 实际应用的时候,为了使方差估计式成立,我们也必须保证: 即样本均值总在附近波动,且波动范围很小。在这种情况下,辅助变量的意义也很小. 这就是矛盾的所在:比率估计量的方差估计严格成立的场合,也是比率估计量失去应用价值的时候。 二、一个模拟的例子 在样本均值波动比较大的时候,比率估计的方差究竟有多大的改进呢?对于这个问题,可以用统计模拟来实现。 我的例子如下:数据来源是人民大学版的《抽样技术》例题4.3,估计33个乡的粮食总产量,抽样得到10个乡粮食产量Y,耕地面积X,村的数量M。Y 22, 22.8, 30.2, 21.7, 24.3, 31.2, 26, 20.5, 33.8, 23.6 ,X 800, 780, 1000, 700, 880, 1100, 850, 800, 1200, 830 ,M= 15, 18, 26, 14, 20, 28, 21, 19, 31, 17 。 我们可以比较三种方法估计的理论方差:简单估计,以耕地面积作辅助变量的比率估计,以村数量作辅助变量的比率估计。因为总体数据未知,我首先以有放回的抽样模拟一个样本量为33的数据;然后枚举所有可能抽样组合,计算三种估计量。另一方面,对于每种抽样结果,我也采用方差估计式求方差估计值。最后可以将不同方差进行比较。考虑到计算量的问题,仅模拟了样本量为5的情形. 考虑到数据量大,在生成全组合时,采用了字典排序的算法, 可参见/stme/archive/2007/10/23/94361.html 模拟的均值估计结果为:三种方法均值估计为:844.90, 847.83, 844.93;方差为2678.20, 1156.89, 221.96;方差估计的期望为2678.20, 1111.19, 220.73。 这个结果有些出人意料:虽然采用方差估计式得到了低估的结果,但是低估的程度很低,甚至可以忽略不计。也就是说,即使在样本均值波动比较大的场合,比率方差估计的偏误并不大。 这就启示我们对方差估计式的含义重新思考。 三、方差估计式的另一种解释 比率估计量的偏误为: 如果假设每次抽样的残差都是一个与 独立的随机变量,则有: 由Jensen不等式,得到 这解释了方差确实存在低估的,而且低估的比例为。 采用之前模拟的例子计算这个比例,得到利用耕地面积作辅助变量的抽样方差为121356,但是方差的低估比例仅为1.0035。用此比例修正方差估计,结果为221.51,和真实值221.96几乎相同。 由此可见,即使在辅助变量波动较大,样本两较小,辅助变量抽样均值方差较大的情形,方差低估的比例也可能是很低的,所以采用方差估计式依然可以得到较好的结果。 四、题外话 这个问题给我们的启示:统计学归根结底离不开数学,定量的分析才能给予问题严格的解决。 关于定性和定量的话题,让我想到关于正态分布均值的T检验问题,有的统计学教材上刻意强调了这

文档评论(0)

zilaiye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档