关联规则挖掘课件.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则挖掘课件

关 联 规 则 挖 掘 黎都 2004-12-21 基本概念(1) 数据,数据集 项目,项目集 事务 t 包含项目集 X 支持数,频繁项目集(频集) Support(X) = a(x) / |D| 置信度 基本概念(2) 关联规则: 若项目集 X与Y交集为空,则X=Y为关联规则,其中: Support(X=Y) = Support(X并Y) Confidence( X=Y) = Suppose(X并Y)/ Suppose(X) 关联规则的目的 对于指定的minsupport和minconfidence 使得support(X) = minsupport Confidence(X)= minconfidence 则称关联规则X=Y为强规则 关联规则挖掘的就是挖掘出事务集D中的强规则 关联规则挖掘 关联规则挖掘分为两个子问题: 1,根据最小支持度找出数据集D中的所有频集; 2,根据频集和最小置信度产生关联规则; 关联规则的发现算法 发现算法解决的是关联规则挖掘的第一个问题 关联规则分为布尔关联规则和多值规则 多值关联规则都转化为布尔关联规则来解决,因此先介绍布尔关联规则算法 Apriori,AprioriTid,AprioriHybrid Apriori算法 Agrawal等人在1993年提出的AIS和SETM的基础上在1994年提出Apriori和AprioriTi Apriori和AprioriTid算法利用前次过程中的数据项目集来生成新的候选数据项目集,减少了中间不必要的数据项目集的生成,提高了效率 Apriori算法 L1 = {大项目集1项目集} For(k=2; Lk-1 非空;k++) do begin Ck = apriori-gen(Lk-1 ); for 所有事务 t do begin Ct = subset(Ck , t) for 所有候选 c(属于Ct )do c.count++; Apriori算法 End Lk = { c属于Ck | c.count = minsupp} End Apriori算法得到的频集为Lk 的并集 Apriori算法分析 分为第一次遍历和第k次遍历 第一次遍历计算每个项目的具体值,确定大项目集1项目集L1 第k次遍历利用前一次找到的大项集Lk-1 和Apriori-gen函数产生候选集Ck ,然后扫描数据库,得到Ck 中候选的支持度,剔除了不合格的候选后Ck作为Lk Apriori算法分析:Apriori-gen 本质是合并项目集成为候选项目集 算法: Insert into Ck Select p[1], p[2],……,p[k-1],q[k-1] From Lk-1 p, Lk-1 q Where p[1] = q[1],……,p[k-2] = q[k-2] p[k-1] q[k-1] Apriori算法分析:Apriori-gen 然后,对于Ck 中某集合c的任意子集,如果不存在于Lk-1 ,则删除c; 例子: L3 为 {1 2 3} {1 2 4} {1 3 5} {2 3 4}在合并后为C3 : { { 1 2 3 4} { 1 3 4 5}}; 因为{1 3 4 5} 中的{1 4 5}不存在,所以C3 中{1 3 4 5}应该删除,故L4 : {1 2 3 4} Apirori算法分析:Subset 候选项目集Ck 是存储在一个Hash树中的,并且要求项目集中的项目有序 Subset函数寻找所有包含在某个事务中的候选,使用Hash查找 实质:得到候选集Ck 中候选项c的支持度 AprioriTid算法 AprioriTid算法由Apriori算法改进 优点:只和数据库做一次交互,无须频繁访问数据库 将Apirori中的Ck 扩展,内容由{c}变为{TID,c},TID用于唯一标识事务 引入Bk ,使得Bk 对于事务的项目组织集合,而不是被动的等待Ck 来匹配 ApioriTid算法 举例:minsupp = 2 数据库: ApioriTid算法示例 ApioriTid算法示例 ApioriTid算法示例 ApioriTid算法 上面图中分别为Bk 和Lk ,而Ck 和Apriori算法产生的一样,因此没有写出来 可以看到Bk 由Bk-1 得到,无须由数据库取数据 缺点:内存要求很大,事务过多的时候资源难以满足 ApioriHybrid算法 这种算法将Apriori算法和AprioriTid算法混合,利用各自优点弥补不足; 利用的原理:随着候选集的元素扩充,所能匹配的事务将可能减少 算法:先使用Apriori算法,当能匹配的事务减少到内存可以容纳的程度,使用ApiroriTid算

文档评论(0)

叮当文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档