多关系关联规则.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

挖掘多关系关联规则MiningofMulti-RelationalAssociationrules多关系关联规则挖掘基于ILP技术的多关系关联规则挖掘方法多关系关联规则挖掘通过分析一个关系数据库的多个表中的数据,发现存在于单个表以及多个表的属性值之间的关联规则的过程称为多关系关联规则挖掘(multi-relationalassociationrulemining简称MRARM)多关系关联规则挖掘星型模式(多维数据模型)假设数据挖掘的数据是以星型模式组织的,即由一个事实表(facttable,简称FT)和多个维表(dimensionaltable)构成,每个维表的主键(primarykey)在事实表中以外键(forgienkey)的形式出现,以表达维表和事实表之间的1对多联系。

如图1中所示的数据库由3个表构成.Student表记录了所有学生的信息,Course表记录了所有的课程信息,SC表中记录了有关学生选课的信息,这个数据库可以看作是一星型模式.其中,表SC是事实表,表Student和表Course分别是维表.SC表中的外键属性Sid参照的是表Student的主键Sid,外键属性Cid参照的是表Course的主键Cid.多关系关联规则挖掘连接表:将一个数据库中的所有表进行连接构成一个泛关系表,称为连接表(jointable)多关系关联规则挖掘定义5(单表频繁项集、跨表频繁项集).由用户给定一个支持度的最小阈值(记为minsup),所有支持度不小于该阈值的项集称为频繁项集。若项集为单表项集,则称为单表频繁项集;同理,若频繁项集为跨表项集,则称为跨表频繁项集定义6(频繁闭合项集).给定最小支持度minsup,对于一个频繁项集,如果不存在一个项集Y,且Y与X的支持度相同,则X称为频繁闭合项集定义7(单表关联规则、跨表关联规则).由用户给定一个置信度的最小阈值(记为minconf)和支持度的最小阈值mincup.对于频繁项集X和Y,若对用规则X-Y的置信度不小于最小阈值minconf,则称该规则为关联规则。若项集XY为单表项集,则称规则为单表关联规则;同理,若项集XY为跨表项集,则称关联规则为跨表关联规则。多关系关联规则的挖掘任务:给定支持度和置信度的最小阈值minsup和minconf,多关系关联规则的挖掘就是要发现存在于一个数据库的多个表中的所有满足minsup和minconf的单表和跨表关联规则。关联规则的挖掘通常分为两个步骤:第一步发现所有的频繁项集,第二步发现这些频繁项集之间满足的最小置信度的关联规则。由于发现频繁项集的时间复杂度远远大于第二步关联规则的发现,因而,我们只讨论第一步的挖掘方法,在多关系的环境下,寻找满足最小支持阈值的单表频繁项集和跨表频繁项集的过程,称之为多关系频繁项集挖掘。多关系关联规则挖掘的主要问题性能问题:将传统单表关联规则挖掘算法用于发现多表关联规则的最直接的方法是将一个数据库的所有表进行连接,构造一个连接表或泛关系表.然而,在数据库的各种数据操作中,连接是最费时的操作之一。因此,这种方法会引起如下问题:将多个关系进行连接操作,当涉及的表很大时,连接操作可能根本无法进行,因为连接操作的执行代价昂贵,很费时多表连接的结果所对应的单一关系表,数据冗余现象非常严重,规模可能非常庞大,在这样的表上运行数据挖掘算法将非常费时多关系关联规则挖掘的主要问题统计倾斜问题:为了将位于多个表的项进行关联,若将这些表的数据进行连接,生成一个连接表,则将改变数据在原有表中的分布特性,偏离其原有统计特性。原存于一个表的数据经过连接操作之后,有些信息被放大了,而有些则被缩小了,偏离了原来的数据分布状况,产生了统计上的偏斜.因此,为了使发现的关联规则最大程度地符合数据所反映的语义,计算正确的支持度和置信度,需要将统计偏斜问题作为需要解决的问题之一多关系关联规则挖掘的主要问题信息丢失问题:将多关系转换为单关系的另外一种方法是创建一些新的属性,将来自其他表的信通过汇总和聚集集成在一个关系中,从而将多关系数据库转化为单一关系,在ILP领域,这种方法称为命题化(prepositionalization)例如,对于图1中的3个表,可以通过该方法生成如表2所示的单个表s

文档评论(0)

iris + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档