什么是数据挖掘(20200922002936).pdfVIP

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
。 什么是数据挖掘 数据挖掘 (Data Mining) ,又称为数据库中的知识发现 (Knowledge Discovery in Database, KDD) , 就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据 挖掘就是从大量数据中提取或 “挖掘 ”知识。 并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过 因特网的搜索引擎查找特定的 Web 页面,则是信息检索( information retrieval )领域的任务。虽然这些 任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的 明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索 系统的能力。 数据挖掘的起源 为迎接前一节中的这些挑战,来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据 类型的更有效的、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域 达到高潮。特别地,数据挖掘利用了来自如下一些领域的思想: (1) 来自统计学的抽样、估计和假设检验, (2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其 他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。 一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理 支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海 量数据,并且当数据不能集中到一起处理时更是至关重要。 数据挖掘能做什么 1)数据挖掘能做以下六种不同事情(分析方法): · 分类 (Classification ) · 估值( Estimation ) · 预言( Prediction ) · 相关性分组或关联规则( Affinity grouping or association rules ) · 聚集( Clustering ) · 描述和可视化( Des cription and Visualization ) · 复杂数据类型挖掘 (Text, Web , 图形图像,视频,音频等 ) 2) 数据挖掘分类 -可编辑修改 - 。 以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘 · 直接数据挖掘 目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数 据库中表的属性,即列)进行描述。 · 间接数据挖掘 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。 · 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 3) 各种分析方法的简介 · 分类 (Classification ) 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型, 对于没有分类的数据进行分类。 例子: a. 信用卡申请者,分类为低、中、高风险 b. 分配客户到预先定义的客户分片 注意: 类的个数是确定的,预先定义好的 · 估值( Estimation ) 估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类 的类别是确定数目的,估值的量是不确定的。 例子: a. 根据购买模式,估计一个家庭的孩子个数 b. 根据购买模式,估计一个家庭的收入 c. 估计 real estate 的价值 一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量 的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分 (Score 0~1 )。然后,根据阈值,将贷款级别分类。 · 预言( Prediction ) 通常,预言是通过分类或估值起作用的,也就是说,通过分类或估

文档评论(0)

拉拉链 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档