数据挖掘期末复习提纲(整理版).pdf

下载文档

35
0
约4千字
约 3页
2020-09-22 发布于广东
举报
版权申诉
保障服务

数据挖掘期末复习提纲(整理版).pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1. 熟悉数据挖掘的流程：提示： 1）业务理解 2）数据理解 3 ）数据准备 4）建立模型 5）模型评估 6）模型发布 2. 数据库系统与数据仓库系统的区别：数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合，支持管理部门的决策过程：而数据库是面向具体操作的、单一的、实时的、更新的数据集合，支持管理机构日常操作的。数据库系统的主要任务是执行联机事务和查询处理，这种系统称为 OLTP 系统，涵盖了组织机构的大部分日常操作；另一方面，数据仓库在数据分析和决策方面为用户和知识工人提供服务。具体表述如下：项目数据库系统数据仓库系统数据类型操作型数据分析型数据数据组织方式面向应用面型主题试图机制虚表存储，只存视图结构实试图存储系统开发方法需求驱动数据驱动面向应用面向 OLTP 面向 OLAP 工具数据查询、开发分析和一般查询功能复杂简单优化事务处理和访问系统决策和分析索引有限数量完整结构自由空间需要附加数量空间无更新开销大无更新操作增、删、改频繁少 3. 数据聚合需考虑的问题 ; 4. 利用免费商品做促销的关联规则挖掘问题： 1）找到免费商品的频繁 1—项集，记为 S1。 2）使用 FP 增长算法生成那些价格不少于 $200 的频繁项集，记为 S2。这是一个单调约束，因此不必要在每一步使用“生成—测试”过程，这样能节省一些不必要的计算开销。如果我们有一个频繁项价格至少￥ 200，则没必要对这个频繁项的任何超集进行测试。这是因为任何其他商品加到这个频繁项里，价格肯定会增多。需要检验的是超集是否是频繁的。这里之所以使用 FP 增长算法的原因是 Apriori 算法丢弃了那些价格低于 $200 的频繁项集。这样导致了将不能够发现满足约束条件的频繁项集。 FP 增长算法不会有这样的问题，因为它保留了关于数据库的完整信息在一个树结构中。 3）从 S1S2 中找到频繁项集。 4）生成满足最小置信度且形如 S1 S 2 的规则。 5. 分布式数据的关联规则挖掘方法：第一．在每一个站点挖掘局部频繁项集，设 CF 为四个站点的局部频繁项集的并集；第二．计算 CF 中每个频繁项集在各个站点的支持度计数；第三．计算 CF 中每个项集的全局支持度计数，可以通过将它在四个站点的局部支持度计数累加起来；那些全局支持度大于支持度阀值的项集为频繁项集；