第4章数据的归约.pptx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第4章数据的归约

任课教师:

所在学院:

Unrestricted

主要内容

第一部分:数据归约策略

数据立方体聚集

第二部分:数值归约

1、直方图

2、维归约

第三部分:线性回归

评估分类法的准确性

第四部分:主成分分析

1、数据归约策略

数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间

数据归约

数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果

数据归约策略

数据立方体聚集

维归约

数据压缩

数值归约

离散化和概念分层产生

用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。

数据立方体聚集

最底层的方体对应于基本方体

基本方体对应于感兴趣的实体

在数据立方体中存在着不同级别的汇总

数据立方体可以看成方体的格

每个较高层次的抽象将进一步减少结果数据

数据立方体提供了对预计算的汇总数据的快速访问

使用与给定任务相关的最小方体

在可能的情况下,对于汇总数据的查询应当使用数据立方体

2、数值归约

通过选择替代的、较小的数据表示形式来减少数据量

有参方法:使用一个参数模型估计数据,最后只要存储参数即可。

线性回归方法:Y=α+βX

多元回归:线性回归的扩充

对数线性模型:近似离散的多维数据概率分布

无参方法:

直方图

聚类

选样

直方图

一种流行的数据归约技术

将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率

桶和属性值的划分规则

等宽

等深

V-最优

MaxDiff

维归约

通过删除不相干的属性或维减少数据量

属性子集选择

找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布

减少出现在发现模式上的属性的数目,使得模式更易于理解

启发式的(探索性的)方法

逐步向前选择

逐步向后删除

向前选择和向后删除相结合

判定归纳树

3、回归方法

线性回归:Y=+X

其中和是回归系数,可以根据给定的数据点,通过最小二乘法来求得

多元回归:Y=+1X1+2X2

线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的,1和2

非线性回归:Y=+1X1+2X22+3X33

对不呈线性依赖的数据建模

使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解

评估分类法的准确性

导出分类法后,再使用训练数据评估分类法,可能错误的导致乐观的估计

保持方法

给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3)

训练集导出分类法,测试集对其准确性进行评估

随机子选样:保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值

k-折交叉确认

初始数据被划分为k个不相交的,大小大致相同的子集S1,S2…Sk

进行k次训练和测试,第i次时,以Si做测试集,其他做训练集

准确率为k次迭代正确分类数除以初始数据集样本总数

4、主成分分析

主成分分析(PrincipalComponentAnalysis,PCA)是一种常用的高维数据降维方法,其基本思想是将原始变量作线性组合,通过少数几个组合变量反映原始数据的全部或绝大部分信息。

下面由一个例子引出:

4、主成分分析

如我们先来看一个简单的例子。下表是一部分中学生各科考试成绩的数据

4、主成分分析

为了揭示各科成绩的相关性,我们计算相关系数矩阵,得

4、主成分分析

从以上相关系数矩阵可以看出,有些科目成绩之间具有显著的相关性,例如历史与政治的相关性达到了0.97,这说明这两科成绩是高度相关的,除此之外还有数学和物理的相关性为0.94,数学与化学的相关性为0.93等,这说明原始数据存在较高的冗余,我们可以用更精简的方式来表示原始数据。

在数据挖掘中,主成分分析不仅可以达到降维的目的,还可以从数据中挖掘出某些重要的结构信息。

属性子集选择方法

通过删除不相关或冗余的属性(或维)减小数据集。

其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。

通过穷举搜索找出有属性的最佳子集是不现实的。通常采用压缩搜索空间的启发式算法。如贪心算法:从局部最优到全局最优。

逐步向前选择

逐步向后删除

向前选择和向后删除的结合

决策树归纳

属性子集选择方法

(1)逐步向前选择:该过程由空属性集作为规约集开始,确定原属性集中最好的属性,并将它添加到规约集中。在其后的每一次迭代,将剩下的原属性集中的最好的属性添加到该集合中。

(2)逐步向后删除:该过程由整个属性集开始。在每一步中,删除尚在属性集中最差的属性。

(3)逐步向前选择和逐步向

文档评论(0)

iris + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档