数据挖掘技术.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

一、数据挖掘技术的由来

近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、

政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:

在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所

淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用

它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面

对人们被数据淹没的挑战,数据挖掘技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。

进化阶段商业问题支持技术产品特点

数据搜集“过去五年中我的总收入是多提供历史性的、静态的

计算机、磁带和磁盘

(60年代)少?”数据信息

关系数据库(RDBMS),结构化查询

数据访问“在新英格兰的分部去年三月的在记录级提供历史性

语言(SQL),ODBCOracle、Sybase、

(80年代)销售额是多少?”的、动态数据信息

Informix、IBM、Microsoft

数据仓库;“在新英格兰的分部去年三月的

联机分析处理(OLAP)、多维数据在各种层次上提供回

决策支持销售额是多少?波士顿据此可得

库、数据仓库溯的、动态的数据信息

(90年代)出什么结论?”

数据挖掘“下个月波士顿的销售会怎么高级算法、多处理器计算机、海量

提供预测性的信息

(正在流行)样?为什么?”数据库

数据挖掘的演进过程

现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发

展成熟,他们是:

--海量数据搜集

--强大的多处理器计算机

--数据挖掘算法

二、技术上的定义

数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际

应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据

进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

数据挖掘的任务/功能

数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发

现隐含的、有意义的知识,主要有以下五类功能。

5.1自动预测趋势和行为

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接

由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投

资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

5.2关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律

性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关

联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可

信度。

文档评论(0)

186****5782 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档