缺失数据插补方法简述..doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
缺失数据的插补方法简述. 缺失数据的插补方法简述. PAGE / NUMPAGES 缺失数据的插补方法简述. 缺失数据的插补方法简述 龙信数据 (北京有限企业数据研发部戴丽 纲要 :在各种适用的数据库中 ,数据属性值缺失的状况常常发全甚至是不行防止的。所以 ,在大部分状况下 ,信息系统是不齐备的 ,或许说存在某种程度的不齐备。对数据发掘来说 ,空值的存在造成了实用信息的丢掉、数据不确立性更为明显等不良 影响 ,所以 ,空缺的数据需要经过特意的方法进行推导、填补等 ,以减少量据发掘算法与实质应用之间的差距。本文将主要针对缺失数据的补全方法进行简要介绍。 重点词 :数据缺失数据办理数据质量 一、背景概括 在各种适用的数据库中 ,数据属性值缺失的状况常常发全甚至是不行防止的。 所以 ,在大部分状况下 ,信息系统是不齐备的 ,或许说存在某种程度的不齐备。 数据缺失在很多研究领域都是一个复杂的问题。对数据发掘来说 ,空值的存在 , 造成了以下影响 :第一 ,系统丢掉了大批的实用信息 ;第二 ,系统中所表现出的不确立性更为明显 ,系统中蕴涵确实定性成分更难掌握 ;第三 ,包括空值的数据会使发掘过程堕入杂乱 ,致使不行靠的输出。 数据发掘算法自己更致力于防止数据过分合适所建的模型 ,这一特征使得它难以经过自己的算法去很好地办理不完好数据。所以 ,空缺的数据需要经过特意的方法进行推导、填补等 ,以减少量据发掘算法与实质应用之间的差距。 二、缺失数据常有插补方法简述 (一个案剔除法 最常有、最简单的办理缺失数据的方法是个案剔除法 ,也是好多统计软件 (诸如 如 SPSS和 SAS 默认的缺失值办理方法。 在这类方法中假如任何一个变量含出缺失数据的话 ,就把相对应的个案从剖析样本中剔除。假如缺失值所占比率比较小的话 ,这一方法十分有效。至于详细多大 的缺失比率算是 “小”比率 ,专家们建议也存在较大的差距。有学者以为应在 5%以下 , 也有学者以为 20%以下即可。但是 ,这类方法却有很大的限制性。 它是以减少样本量来换守信息的齐备 ,会造成资源的大批浪费 ,抛弃了大批隐蔽在这些对象中的信息。在样本量较小的状况下 ,删除少许对象就足以严重影响到数据的客观性和结果的正确性。所以 ,当缺失数据所占比率较大 ,特别是当缺数据非随机散布时 ,这类方法可能致使数据发生偏离 ,进而得犯错误的结论。 (二均值代替法 在变量十分重要而所缺失的数据量又较为宏大的时候 ,个案剔除法就碰到了困难 ,因为很多实用的数据也同时被剔除。环绕着这一问题 ,研究者试试了各种各种的方法。此中的一个方法是均值代替法。 在该方法中 ,我们将变量的属性分为数值型和非数值型来分别进行办理。假如缺失值是数值型的 ,就依据该变量在其余全部对象的取值的均匀值来填补该缺失的 变量值 ;假如缺失值是非数值型的 ,则依据统计学中的众数原理 ,用该变量在其余全部对象的取值次数最多的值来补齐该缺失的变量值。 可是 ,这类方法会产生有偏预计 ,所以其实不被尊崇。均值代替法也是一种简易、迅速的缺失数据办理方法。使用均值代替法插补缺失数据 ,对该变量的均值预计不会产生影响。但这类方法是成立在完好随机缺失 (MCAR 的假定之上的 ,并且会造成变量的方差和标准差变小。 (三热卡填补法 关于一个包括缺失值的变量 ,热卡填补法的做法是 :在数据库中找到一个与它最 相像的对象 ,而后用这个相像对象的值来进行填补。不一样的问题可能会采用不一样的 标准来对相像进行判断。最常有的是使用有关系数矩阵来确立哪个变量 (如变量 Y 与缺失值所在变量 (如变量 X 最有关。而后把全部个案按 Y 的取值大小进行排序。 那么变量 X 的缺失值就能够用排在缺失值前的那个个案的数据来取代了。 与均值代替法对比 ,利用热卡填补法插补数据后 ,其变量的标准差与插补前比较靠近。但在回归方程中 ,使用热卡填补法简单使得回归方程的偏差增大 ,参数预计变得不稳固 ,并且这类方法使用不便 ,比较耗时。 (四回归代替法 回归代替法第一需要选择若干个展望缺失值的自变量 ,而后成立回归方程预计缺失值 ,即用缺失数据的条件希望值对缺失值进行代替。 与前述几种插补方法比较 ,该方法利用了数据库中尽量多的信息 ,并且一些 统计软件 (如 Stata也已经能够直接履行该功能。但该方法也有诸多缺点 ,第一 , 这固然是一个无偏预计 ,可是却简单忽略随机偏差 ,低估标准差和其余未知性质的丈量值 ,并且这一问题会跟着缺失期息的增加而变得更为严重。第二 ,研究者一定假定存在缺失值所在的变量与其余变量存在线性关系 ,好多时候这类关系是不存在的。 (五多重代替法 多重估量是由 Rubin 等人于 1987 年成立起来的一种数据扩大和统计剖析方法 , 作为简单估量的改良产

文档评论(0)

zdq0037 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档