第4章数据的归约.pptx

下载文档

0
0
约2.14千字
约 17页
2024-05-17 发布于四川
举报
版权申诉
保障服务

第4章数据的归约.pptx

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第4章数据的归约

任课教师：

所在学院：

Unrestricted

主要内容

第一部分：数据归约策略

数据立方体聚集

第二部分：数值归约

1、直方图

2、维归约

第三部分：线性回归

评估分类法的准确性

第四部分：主成分分析

1、数据归约策略

数据仓库中往往存有海量数据，在其上进行复杂的数据分析与挖掘需要很长的时间

数据归约

数据归约可以用来得到数据集的归约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果

数据归约策略

数据立方体聚集

维归约

数据压缩

数值归约

离散化和概念分层产生

用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。

数据立方体聚集

最底层的方体对应于基本方体

基本方体对应于感兴趣的实体

在数据立方体中存在着不同级别的汇总

数据立方体可以看成方体的格

每个较高层次的抽象将进一步减少结果数据

数据立方体提供了对预计算的汇总数据的快速访问

使用与给定任务相关的最小方体

在可能的情况下，对于汇总数据的查询应当使用数据立方体

2、数值归约

通过选择替代的、较小的数据表示形式来减少数据量

有参方法：使用一个参数模型估计数据，最后只要存储参数即可。

线性回归方法：Y=α+βX

多元回归：线性回归的扩充

对数线性模型：近似离散的多维数据概率分布

无参方法：

直方图

聚类

选样

直方图

一种流行的数据归约技术

将某属性的数据划分为不相交的子集，或桶，桶中放置该值的出现频率

桶和属性值的划分规则

等宽

等深

V-最优

MaxDiff

维归约

通过删除不相干的属性或维减少数据量

属性子集选择

找出最小属性集，使得数据类的概率分布尽可能的接近使用所有属性的原分布

减少出现在发现模式上的属性的数目，使得模式更易于理解

启发式的（探索性的）方法

逐步向前选择

逐步向后删除

向前选择和向后删除相结合

判定归纳树

3、回归方法

线性回归：Y=+X

其中和是回归系数，可以根据给定的数据点，通过最小二乘法来求得

多元回归：Y=+1X1+2X2

线性回归的扩展，设计多个预测变量，可以用最小二乘法求得上式中的，1和2

非线性回归：Y=+1X1+2X22+3X33

对不呈线性依赖的数据建模

使用多项式回归建模方法，然后进行变量变换，将非线性模型转换为线性模型，然后用最小二乘法求解

评估分类法的准确性

导出分类法后，再使用训练数据评估分类法，可能错误的导致乐观的估计

保持方法

给定数据随机划分为两个集合：训练集(2/3)和测试集(1/3)

训练集导出分类法，测试集对其准确性进行评估

随机子选样：保持方法的一个变形，将保持方法重复k次，然后取准确率的平均值

k-折交叉确认

初始数据被划分为k个不相交的，大小大致相同的子集S1,S2…Sk

进行k次训练和测试，第i次时，以Si做测试集，其他做训练集

准确率为k次迭代正确分类数除以初始数据集样本总数

4、主成分分析

主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的高维数据降维方法，其基本思想是将原始变量作线性组合，通过少数几个组合变量反映原始数据的全部或绝大部分信息。

下面由一个例子引出：

4、主成分分析

如我们先来看一个简单的例子。下表是一部分中学生各科考试成绩的数据

4、主成分分析

为了揭示各科成绩的相关性，我们计算相关系数矩阵，得

4、主成分分析

从以上相关系数矩阵可以看出，有些科目成绩之间具有显著的相关性，例如历史与政治的相关性达到了0.97，这说明这两科成绩是高度相关的，除此之外还有数学和物理的相关性为0.94，数学与化学的相关性为0.93等，这说明原始数据存在较高的冗余，我们可以用更精简的方式来表示原始数据。

在数据挖掘中，主成分分析不仅可以达到降维的目的，还可以从数据中挖掘出某些重要的结构信息。

属性子集选择方法

通过删除不相关或冗余的属性（或维）减小数据集。

其目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。

通过穷举搜索找出有属性的最佳子集是不现实的。通常采用压缩搜索空间的启发式算法。如贪心算法：从局部最优到全局最优。

逐步向前选择

逐步向后删除

向前选择和向后删除的结合

决策树归纳

属性子集选择方法

（1）逐步向前选择：该过程由空属性集作为规约集开始，确定原属性集中最好的属性，并将它添加到规约集中。在其后的每一次迭代，将剩下的原属性集中的最好的属性添加到该集合中。

（2）逐步向后删除：该过程由整个属性集开始。在每一步中，删除尚在属性集中最差的属性。

（3）逐步向前选择和逐步向

您可能关注的文档

文档评论（0）

iris + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第4章数据的归约.pptx