数据挖掘期末复习提纲(整理版).pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1. 熟悉数据挖掘的流程: 提示: 1)业务理解 2)数据理解 3 )数据准备 4)建立模型 5)模型评估 6) 模型发布 2. 数据库系统与数据仓库系统的区别: 数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管 理部门的决策过程: 而数据库是面向具体操作的、 单一的、 实时的、 更新的数据 集合,支持管理机构日常操作的。 数据库系统的主要任务是执行联机事务和查询 处理,这种系统称为 OLTP 系统,涵盖了组织机构的大部分日常操作; 另一方面, 数据仓库在数据分析和决策方面为用户和知识工人提供服务。 具体表述如下: 项目 数据库系统 数据仓库系统 数据类型 操作型数据 分析型数据 数据组织方式 面向应用 面型主题 试图机制 虚表存储,只存视图结构 实试图存储 系统开发方法 需求驱动 数据驱动 面向应用 面向 OLTP 面向 OLAP 工具 数据查询、开发 分析和一般查询 功能 复杂 简单 优化 事务处理和访问 系统决策和分析 索引 有限数量 完整结构 自由空间 需要附加数量空间 无 更新开销 大 无 更新操作 增、删、改频繁 少 3. 数据聚合需考虑的问题 ; 4. 利用免费商品做促销的关联规则挖掘问题: 1)找到免费商品的频繁 1—项集,记为 S1。 2)使用 FP 增长算法生成那些价格不少于 $200 的频繁项集,记为 S2。这是 一个单调约束,因此不必要在每一步使用“生成—测试”过程,这样能 节省一些不必要的计算开销。如果我们有一个频繁项价格至少¥ 200,则 没必要对这个频繁项的任何超集进行测试。这是因为任何其他商品加到 这个频繁项里,价格肯定会增多。需要检验的是超集是否是频繁的。这 里之所以使用 FP 增长算法的原因是 Apriori 算法丢弃了那些价格低于 $200 的频繁项集。这样导致了将不能够发现满足约束条件的频繁项集。 FP 增长算法不会有这样的问题,因为它保留了关于数据库的完整信息在 一个树结构中。 3)从 S1S2 中找到频繁项集。 4)生成满足最小置信度且形如 S1 S 2 的规则。 5. 分布式数据的关联规则挖掘方法: 第一. 在每一个站点挖掘局部频繁项集, 设 CF 为四个站点的局部频繁项集 的并集; 第二. 计算 CF 中每个频繁项集在各个站点的支持度计数; 第三. 计算 CF 中每个项集的全局支持度计数, 可以通过将它在四个站点的 局部支持度计数累加起来;那些全局支持度大于支持度阀值的项集 为频繁项集;

文档评论(0)

拉拉链 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档