数据仓库与数据挖掘概述.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华北电力大学 控制与计算机学院;参考书;数据处理技术的开展 数据库与数据库技术 数据仓库的开展 联机分析处理技术〔OLAP〕 数据挖掘技术 数据仓库的定义 数据仓库的体系结构 从传统数据库到数据仓库 数据仓库的根本特性 联机分析处理技术〔OLAP〕 数据挖掘技术 数据挖掘的定义 数据挖掘的过程 数据挖掘的类型 数据挖掘应用 ;第1章 数据仓库与数据挖掘概述;数据处理技术的开展; 数据库与数据库技术;数据仓库的开展 ; 联机事务处理〔OLTP〕 操作型处理,为企业的特定应用效劳 是对数据库的联机的日常操作,通常是对一个或一组记录的查询和修改 人们关心的是响应时间、数据的平安性和完整性 处理的是当前的数据。; 决策支持系统〔DSS〕 分析型处理,用于管理人员的决策分析 经常需要访问大量的历史数据 数据操作的特点:只查询,不更新。 数据仓库 + 联机分析处理 + 数据挖掘 〔 DW + OLAP + DM 〕→ DSS; 传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要表达在如下几个方面: (1) 决策处理的系统响应问题 (2) 决策数据需求的问题 (3) 决策数据操作的问题;对比内容;联机分析处理技术〔OLAP〕;数据挖掘技术;从数据库到数据仓库;数据仓库的定义; ;数据仓库中数据的特点 面向主题 集成性 不可更新的 随时间不断变化;1、面向主题: 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。 主题是在较高层次上对数据抽象 面向主题的数据组织分为两步骤 抽取主题 确定每个主题所包含的数据内容 每个主题在数据仓库中都是由一组关系表实现的;*;数据仓库的特点 —— 面向主题;2、集成的 数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创立一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规那么。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。 数据集成过程: 数据提取:数据仓库的数据是从原有的分散数据库数据中抽取来的 净化、转换:消除数据表述的不一致性〔数据的清洗〕 装载 数据的综合; 数据仓库的特点 —— 集成; 3、不可更改的 数据仓库中的数据反映的是一段时间内历史数据的内容。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。 数据仓库的主要数据操作是查询、分析 不进行一般意义上的数据更新〔过期数据可能被删除〕 数据仓库强化查询、淡化并发控制和完整性保护等技术;数据仓库的特点——数据不可更改;4、随时间变化的 时变性:许多商业分析要求对开展趋势做出预测,对开展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据。 不断增加新的数据内容 不断删除旧的数据内容 定时综合 数据仓库中数据表的键码都包含时间项,以标明数据的历史时期;数据仓库的特点 ——随时间变化;数据仓库的技术要求;数据仓库的体系结构 ;数据挖掘的定义;数据挖掘的过程;数据挖掘的步骤;数据挖掘的类型;数据挖掘研究方向 〔1〕专门用于知识发现的形式化和标准化的数据挖掘语言; 〔2〕数据挖掘过程中的便于用户理解的及人机交互的可视化方法; 〔3〕网络环境下的数据挖掘技术; 〔4〕各种非结构化数据的挖掘。 ;小结;思考题 ;4.从数据挖掘与数据库、统计学、机器学习的关系来讨论什么是数据挖掘? 5.在数据挖掘过程中需要涉及到哪些过程? 6.在现实中有哪些人需要使用数据挖掘技术来帮助他的工作? ;*

文档评论(0)

东木文档 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体广州东木科技有限公司
IP属地广东
统一社会信用代码/组织机构代码
91440101MA9W4UABXM

1亿VIP精品文档

相关文档