数据智能与应用 (12).ppt

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第三章数据智能之利器

第三节数据清洗1

2三、数据清洗

3.3.1离群点检测含义:离群点检测,也称异常点检测(OutlierDetection),是比较常见的一类无监督学习算法。背景:在统计学和机器学习研究中,离群点研究的应用分为两大场景,一是在数据预处理环节进行异常值检测并进行数据清洗,二是直接将离群点检测的结果作为关注的目标对象,并应用于相应场景。意义:数据质量是决定数据分析结果好坏的重要因素。因此在进行统计分析和统计建模时,首先要进行数据清洗,对异常值进行检测,并进行替换或删除等操作,从而保证得到一个无噪音的数据集。

3三、数据清洗

离群点检测方法介绍设有一组正态样本的观测值,按其大小顺序排列为:其中最小值或最大值为离群值。对于离群值的统计检验,大都是建立在被检测的总体服从正态分布。基于此,在给定的检出水平或显著水平α(通常取值为0.05和0.01)和样本容量n条件下,可查表获得临界值,再通过计算统计量后与临界值比较,若统计量大于临界值就判为异常。临界值表通常给出的是置信度P,对双侧检验而言,P=1-α/2;对单侧检验而言,P=1-α。拉伊达法:拉依达法则又称3σ原则。????

4三、数据清洗

拉伊达法:是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。在正态分布中σ代表标准差,μ代表均值,x=μ即为图像的对称轴。3σ原则:数值分布在(μ-σ,μ+σ)中的概率为0.6827数值分布在(μ-2σ,μ+2σ)中的概率为0.9544数值分布在(μ-3σ,μ+3σ)中的概率为0.9974

5三、数据清洗

拉伊达法算法步骤:保证需要检验的数据列大致上服从正态分布;计算需要检验的数据列的标准差;比较数据列的每个值,是否大于标准差的3倍;大于3倍标准差的删除该样本。正态分布

6三、数据清洗

四分位法:四分位法(IQR)是指在第75个百分点(Q3)与第25个百分点(Q1)差值,即上、下四分位数之间的差,其间包括了全部观察值的一半。计算IQR的公式是:IQR=Q3?Q1IQR是统计分散程度的一个度量,异常值通常被定义为小于Q1-l.5IQR或者大于Q3+1.5IQR的值。这种探测离群点的方法,是箱型图默认的方法。

7三、数据清洗

箱线图的各个组成部分的名称及其位置如下图所示:箱型图示意图

8三、数据清洗

3.3.2缺失值插补均值/中位数插补:计算整体均值或中位数是一种非常基本的插补方法,它是唯一没有利用时间序列特征或变量关系的测试函数。该方法计算起来非常快速,但它也有明显的缺点。其中一个缺点就是,均值插补会减少数据的方差。注意:将数据集分为缺失值、非缺失值两块内容。缺失值处理如果是连续变量,可以选择均值;若为离散变量,则可以选择中位数。

9三、数据清洗

拉格朗日插补数学原理:根据数学知识,对于平面上已知的n个点(无两点在一条直线上)可以找到一个n-1次多项式:为了根据新的x,求出对应的y值,需要求出上式中的系数。又因为n个点在以上多项式上,代入每个点,可得:??

10三、数据清洗

11三、数据清洗

以上方程组中,可以利用线性代数中的行列式求解。解出的拉格朗日插值多项式为:

12三、数据清洗

实例:假设一个2次多项行式,取三个点为则插值

13Thanks!

文档评论(0)

177****2883 + 关注
实名认证
内容提供者

热爱教育,专注于教育领域创作与分享,让我们共同进步。

1亿VIP精品文档

相关文档