数据挖掘课程内容整理.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1、数据挖掘: (定义)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但 又是潜在有用的信息和知识的过程称为数据挖掘。 (功能)概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立 点分析以及偏差分析等。 (典型数据挖掘系统组成) 数据库,数据仓库或其他信息库;数据库或数据仓库服务器;知识库; 数据挖掘引擎;图形用户界面。 (步骤)(1)数据清理:消除重复的、不完全的、违反语义约束的数据( 2 )数据集成:多种 数据源可以组合在一起( 3 )数据选择:从数据库中检索与分析任务相关的数据( 4 )数据变换:数据变换或统一成适合挖掘 的形式,如通过汇总或聚集操作( 5)数据挖掘:使用智能方法提取数据模式( 6 )模式评估:根据某种兴趣度度量,识别表 示知识的真正有趣的模式( 7 )知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识(前 4 个是数据预处理步骤) 2 、据预处理: (原因)原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的 杂乱、 不可用, 即使在同一个数据库中, 也可能存在重复的和不完整的数据信息, 为了使这些数据能够符合数据挖掘的要求, 提高效率和得到清晰的结果,必须进行数据的预处理。 (内容)a 数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关 数据。 b 数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、 数值冲突问题和冗余问题等。 c 数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规 范化,还可能需要进行属性的重构。 d 数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 (数据清理基本内容) 1 尽可能赋予属性名和属性值明确的含义; 2 统一多数据源的属性值编码; 3 去除无用的惟一属性或键值 ( 如自动增长的 id) ;4 去除重复属性 ( 在某些分析中,年龄和出生日期可能就是重复的属性,但 在某些时候它们可能又是同时需要的 )5 去除可忽略字段 ( 大部分为空值的属性一般是没有什么价值的,如果不去除可能造成 错误的数据挖掘结果 )6 合理选择关联字段 ( 对于多个关联性较强的属性, 重复无益, 只需选择其中的部分用于数据挖掘即可, 如价格、数据、金额 )7 去掉数据中的噪音、填充空值、丢失值和处理不一致数据。 (处理空缺值方法) 忽略该记录;去掉属 性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。 (常见分箱方法) 统一权重 法 ( 又称等深分箱法 ) ;统一区间法 ( 又称等宽分箱法 ) ;最小熵法;自定义区间法。 (数据平滑处理方法) 平均值法、边界 值法和中值法。 (数据规约定义) 保持原来数据的完整性,将数据集变小,并不影响对结果的分析 (规约方法) 数据立方体 聚集;维归约;数据压缩;数值压缩;离散化和概念分层。 (规约原因) 维归约可以去掉不重要的属性,减少数据立方体的 维数,从而减少数据挖掘处理的数据量,提高挖掘效率 (数据规范化定义) 将数据按比例缩放 ( 如更换大单位 ) ,使之落入一 个特定的区域(如 0.0 ~ 1.0 ),称为规范化。 (常见方法) (1) 最大-最小规范化: max min x (x0 min0 ) min (2) 零-均值规范化: ( max0 min 0 ) x

文档评论(0)

拉拉链 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档