数据智能与应用 (12).ppt

下载文档

0
0
约1.55千字
约 13页
2024-03-26 发布于广东
举报
版权申诉
保障服务

数据智能与应用 (12).ppt

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三章数据智能之利器

第三节数据清洗1

2三、数据清洗

3.3.1离群点检测含义：离群点检测，也称异常点检测（OutlierDetection）,是比较常见的一类无监督学习算法。背景：在统计学和机器学习研究中，离群点研究的应用分为两大场景，一是在数据预处理环节进行异常值检测并进行数据清洗，二是直接将离群点检测的结果作为关注的目标对象，并应用于相应场景。意义：数据质量是决定数据分析结果好坏的重要因素。因此在进行统计分析和统计建模时，首先要进行数据清洗，对异常值进行检测，并进行替换或删除等操作，从而保证得到一个无噪音的数据集。

3三、数据清洗

离群点检测方法介绍设有一组正态样本的观测值，按其大小顺序排列为：其中最小值或最大值为离群值。对于离群值的统计检验，大都是建立在被检测的总体服从正态分布。基于此，在给定的检出水平或显著水平α(通常取值为0.05和0.01)和样本容量n条件下，可查表获得临界值，再通过计算统计量后与临界值比较，若统计量大于临界值就判为异常。临界值表通常给出的是置信度P，对双侧检验而言，P=1-α/2；对单侧检验而言，P=1-α。拉伊达法：拉依达法则又称3σ原则。????

4三、数据清洗

拉伊达法：是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。在正态分布中σ代表标准差,μ代表均值,x=μ即为图像的对称轴。3σ原则：数值分布在（μ-σ,μ+σ)中的概率为0.6827数值分布在（μ-2σ,μ+2σ)中的概率为0.9544数值分布在（μ-3σ,μ+3σ)中的概率为0.9974

5三、数据清洗

拉伊达法算法步骤：保证需要检验的数据列大致上服从正态分布；计算需要检验的数据列的标准差；比较数据列的每个值，是否大于标准差的3倍；大于3倍标准差的删除该样本。正态分布

6三、数据清洗

四分位法：四分位法(IQR)是指在第75个百分点(Q3)与第25个百分点(Q1)差值，即上、下四分位数之间的差，其间包括了全部观察值的一半。计算IQR的公式是：IQR=Q3?Q1IQR是统计分散程度的一个度量，异常值通常被定义为小于Q1-l.5IQR或者大于Q3+1.5IQR的值。这种探测离群点的方法，是箱型图默认的方法。

7三、数据清洗

箱线图的各个组成部分的名称及其位置如下图所示：箱型图示意图

8三、数据清洗

3.3.2缺失值插补均值/中位数插补：计算整体均值或中位数是一种非常基本的插补方法，它是唯一没有利用时间序列特征或变量关系的测试函数。该方法计算起来非常快速，但它也有明显的缺点。其中一个缺点就是，均值插补会减少数据的方差。注意：将数据集分为缺失值、非缺失值两块内容。缺失值处理如果是连续变量，可以选择均值；若为离散变量，则可以选择中位数。

9三、数据清洗

拉格朗日插补数学原理：根据数学知识，对于平面上已知的n个点（无两点在一条直线上）可以找到一个n-1次多项式：为了根据新的x,求出对应的y值，需要求出上式中的系数。又因为n个点在以上多项式上，代入每个点，可得：??

10三、数据清洗

11三、数据清洗

以上方程组中，可以利用线性代数中的行列式求解。解出的拉格朗日插值多项式为：

12三、数据清洗

实例：假设一个2次多项行式,取三个点为则插值

13Thanks!

您可能关注的文档

文档评论（0）

177****2883 + 关注: 实名认证

内容提供者

热爱教育，专注于教育领域创作与分享，让我们共同进步。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据智能与应用 (12).ppt