基于集合运算数据立方体结构.docVIP

基于集合运算数据立方体结构.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于集合运算数据立方体结构

基于集合运算数据立方体结构   摘要:提出一种新的数据立方体结构,通过索引和集合的交并运算来获得查询结果,特别是在进行区域查询时,避免了将区域分解为点后再依次进行点查询的方式,从而在保持较少的磁盘空间和较好的点查询响应速度的情况下,改善区域查询的性能;同时给出其生成和查询算法,并使用合成数据和实际数据进行了实验验证。   关键词:数据仓库; 数据立方体; 联机分析处理; 区域查询; 集合运算   中图分类号:TP311文献标志码:A   文章编号:1001-3695(2007)11-0225-03      0引言      Date cube[1]是OLAP一个非常重要的操作符。虽然数据立方体预计算并保存查询结果,能够提高查询响应速度,但也存在着很大的问题:占用巨大的磁盘空间、维护工作量大且不能很好地适用于高维的情况。到目前为止,研究者们提出了四类解决方法:a)部分视图型数据立方体。在给定的存储空间约束或维护时间约束下,有选择地实例化数据立方体中的部分视图,但查询响应时间比数据立方体长。b)近似计算型数据立方体。利用柱状图和小波变换技术压缩数据立方体,但得到的查询结果是近似的。c)元组共享型数据立方体。例如condensed cube[2]、quotient cube[3]、封闭立方体[4]、FreeCube[5],利用元组共享原理只实例化数据立方体视图中的某些元组,对稀疏型数据立方体有很高的压缩比,但查询响应时间仍较长。d)特殊存储结构型数据立方体。采用R-tree或prefix tree结构来组织数据立方体中的元组,如cubetrees[6]和dwarf[7],然而维数越大,其查询性能越不好。在上述四类方法中,元组共享型数据立方体具有较好的综合性能:精确的查询结果;很高的数据压缩比;较短的查询响应时间。然而它们在进行区域查询时,将区域分解为点,然后进行点查询,使得一个区域查询相当于大量的点查询,也就导致了查询效率较低。为此,本文提出一种部分视图的数据立方体的概念,在保持与它们类似的空间性能和点查询响应速度的情况下,提高区域查询的速度。??      在该立方体结构中进行查询,其主要时间开销来自于各维值基本元组索引集的交并运算。其中并运算只出现在区域查询中。在其他的立方体存储结构中,对于区域查询,都是对区域查询条件中的区域部分进行分解,查询每个点的聚集值,然后再汇总。随着区间的维数增加和查询区间的增大,区域查询响应时间也就必然迅速增加。在本文提出的立方体结构中的区域维上,先对各区间维值的基本元组索引集进行并运算,然后一次性地进行所有维集合的交运算。如果在某区域维的前一维上非all,那么对于该区域维的并运算也不需要,可以直接在前一维上找到这些区域维值相对应的序号,无论是并运算还是直接获取这些元组序号,以及通过求补集的方法来求交集,都能够明显提高整个区域查询的效率。这也就是该存储结构所特有的地方。??      4结束语??      本文提出的立方体结构是一个部分数据立方体,它大大压缩了数据立方体的体积,尽管只给出了部分视图,但因为采用索引方式,可以较快地读取数据;同时因为运用集合交并补运算,使得区域查询有较好的查询响应时间。笔者今后的主要工作是进一步优化该结构和算法,考虑如何在空间压缩率和查询性能上取得更好的平衡。例如在实例化视图时,适当增加经常用到的非相邻维的方体,改进求交算法,在索引的情况下进行求交运算等,使得在能够接受的空间压缩条件下进一步提高查询响应速度。      参考文献:   [1]GRAY J, BOSWORTH A, LAYMAN A, et al. Data cube: a relational aggregation operator generalizing group-by, cross-tab, and sub-totals[C]//Proc of the 12th Int’l Conf on Data Engineering.New Orleans: [s.n.], 1996:152-159.   [2]WANG Wei, FENG Jian-lin, LU Hong-jun, et al. Condensed cube: an effective approach to reducing data cube size[C]//Proc of the 18th Int’l Conf on Data Engineering. San Jose: [s.n.], 2002:155-165.   [3]LAKSHMANAN L V S, PEI J, HAN J W. Quotient cube: how to summarize the semantics

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档