数据挖掘期末.docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一)概述 为什么要数据挖掘( Data Mining )? 存在可以广泛使用的大量数据, 并且迫切需要将数据转转换成有用的信息和知识 什么是数据挖掘? 数据挖掘( Data Mining )是指从大量数据中提取或“挖掘”知识 对何种数据进行数据挖掘? 关系数据库、数据仓库、事务数据库 空间数据 超文本和多媒体数据 时间序列数据 流数据 二)数据预处理 为什么要预处理数据? 为数据挖掘过程提供干净、准确、简洁的数据,提高数据挖掘的效率和准确性, 是数据挖掘中非常重要的环节; 数据库和数据仓库中的原始数据可能存在以下问题: 定性数据需要数字化表示 不完整 含噪声 度量单位不同 维度高 数据的描述 度量数据的中心趋势:均值、加权均值、中位数、众数 度量数据的离散程度:全距、四分位数、方差、标准差 基本描述数据汇总的图形显示:直方图、散点图 度量数据的中心趋势 集中趋势:一组数据向其中心值靠拢的倾向和程度。 集中趋势测度:寻找数据水平的代表值或中心值。 常用的集中趋势的测度指标: 均值: 缺点:易受极端值的影响 中位数 :对于不对称的数据,数据中心的一个较好度量是中位数 特点:对一组数据是唯一的。不受极端值的影响。 众数:一组数据中出现次数最多的变量值。 特点:不受极端值的影响。有的数据无众数或有多个众数。 度量数据的离散程度 反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势 测度值的代表程度。 常用指标: 全距(极差):全距也称极差,是一组数据的最大值与最小值之差。 R=最大值-最小值 组距分组数据可根据最高组上限-最低组下限计算。 受极端值的影响。 四分位距(Inter-Quartilenge, IQR) :等于上四分位数与下四分位数之差 (q3-q1) 反映了中间50徹据的离散程度,数值越小说明中间的数据越集中。 不受极端值的影响。 可以用于衡量中位数的代表性。 四分位数: 把顺序排列的一组数据分割为四(若干相等)部分的分割点的数值 。 分位数可以反映数据分布的相对位置(而不单单是中心位置)。 在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不 大)。对原始数据: SPSS中四分位数的位置为(n+1)/4,2(n+1)/4 ,3 (n+1)/4 。 Excel中四分位数的位置分别为(n+3)/4,2(n+1)/4 ,(3 n+1)/4。 如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。 方差和标准差:方差是一组数据中各数值与其均值离差平方的平均数,标准差是 方差正的平方根。 是反映定量数据离散程度的最常用的指标。 基本描述数据汇总的图形显示 直方图(Histogram):使人们能够看出这个数据的大体分布或“形状” 散点图 如何进行预处理 定性数据的数字化表示: 二值描述数据的数字化表示 例如:性别的取值为 “男”和“女”,男—1,女—0 多值描述数据的数字化表示 例如:信誉度为“优”、“良”、“中”、“差” 第一种表示方法:优—1,良—2,中—3,差—4 第二种表示方法: ?中? 1 0 0 ° 1 0 俳眷用为“中.* fl 0 1 0 0 D 数据清理 填充空缺值(不完整的数据): 忽略元组 人工填写 使用属性的均值 使用与给定元组属同一类的所有样本的属性均值 消除含噪声的数据: 分箱: 分箱前对记录集按目标属性值的大小进行排序 等深分箱法 等宽分箱法 用户自定义 分箱之后,按箱平均值平滑,按箱边界平滑 数据变换 最小-最大规范化 z-score规范化 小数定标 数据压缩 主成分分析(PCA 特征选择 (三)数据分类 分类的定义 分类是指把数据样本映射到一个事先定义的类中的学习过程, 即给定一组输入的 分类问题使用的数据集格式:描述属性的取值可以定性的数据,也可以是定量的数据;是定性的数据。属性向量及其对应的类,用基于归纳的学习算法得出分类。 分类问题使用的数据集格式: 描述属性的取值可以定性的数据,也可以是定量的数据; 是定性的数据。 而类别属性的取值必须 定量的数据是指在某一个区间或者无穷区间内取值是连续的,例如描述属性 “ Age 定性的数据是指该属性的取值是不连续的 ,例如属性“ Salary ”和“ Class ” 分类的过程 获取数据 输入数据、对数据进行量化 预处理 去除噪声数据、对空缺值进行处理 数据变换、数据压缩 分类器设计 划分数据集、分类器构造、分类器测试 分类决策 对未知类标号的数据样本进行分类 决策树的基本概念 适用于定性取值属性、定量取值属性 采用自顶向下的递归方式产生一个类似于流程图的树结构 在根节点和各内部节点上选择合适的描述属性, 并且根据该属性的不同取值向下 建立分枝。 决策树的优点: 进行分类器设计时,决策树分类方法所需时间相对较少

文档评论(0)

zgc1960 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档