基于集合运算数据立方体结构.docVIP

下载本文档

3
0
约3.08千字
约 6页
2018-10-30 发布于福建
举报
版权申诉

基于集合运算数据立方体结构.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于集合运算数据立方体结构

基于集合运算数据立方体结构　　摘要：提出一种新的数据立方体结构，通过索引和集合的交并运算来获得查询结果，特别是在进行区域查询时，避免了将区域分解为点后再依次进行点查询的方式，从而在保持较少的磁盘空间和较好的点查询响应速度的情况下，改善区域查询的性能；同时给出其生成和查询算法，并使用合成数据和实际数据进行了实验验证。　　关键词:数据仓库；数据立方体；联机分析处理；区域查询; 集合运算　　中图分类号：TP311文献标志码：A 　　文章编号：1001-3695(2007)11-0225-03 　　　　0引言　　　　Date cube[1]是OLAP一个非常重要的操作符。虽然数据立方体预计算并保存查询结果，能够提高查询响应速度，但也存在着很大的问题：占用巨大的磁盘空间、维护工作量大且不能很好地适用于高维的情况。到目前为止，研究者们提出了四类解决方法：a)部分视图型数据立方体。在给定的存储空间约束或维护时间约束下，有选择地实例化数据立方体中的部分视图，但查询响应时间比数据立方体长。b)近似计算型数据立方体。利用柱状图和小波变换技术压缩数据立方体，但得到的查询结果是近似的。c)元组共享型数据立方体。例如condensed cube[2]、quotient cube[3]、封闭立方体[4]、FreeCube[5]，利用元组共享原理只实例化数据立方体视图中的某些元组，对稀疏型数据立方体有很高的压缩比，但查询响应时间仍较长。d)特殊存储结构型数据立方体。采用R－tree或prefix tree结构来组织数据立方体中的元组，如cubetrees[6]和dwarf[7]，然而维数越大，其查询性能越不好。在上述四类方法中，元组共享型数据立方体具有较好的综合性能：精确的查询结果；很高的数据压缩比；较短的查询响应时间。然而它们在进行区域查询时，将区域分解为点，然后进行点查询，使得一个区域查询相当于大量的点查询，也就导致了查询效率较低。为此，本文提出一种部分视图的数据立方体的概念，在保持与它们类似的空间性能和点查询响应速度的情况下，提高区域查询的速度。?? 　　　　在该立方体结构中进行查询，其主要时间开销来自于各维值基本元组索引集的交并运算。其中并运算只出现在区域查询中。在其他的立方体存储结构中，对于区域查询，都是对区域查询条件中的区域部分进行分解，查询每个点的聚集值，然后再汇总。随着区间的维数增加和查询区间的增大，区域查询响应时间也就必然迅速增加。在本文提出的立方体结构中的区域维上，先对各区间维值的基本元组索引集进行并运算，然后一次性地进行所有维集合的交运算。如果在某区域维的前一维上非all，那么对于该区域维的并运算也不需要，可以直接在前一维上找到这些区域维值相对应的序号，无论是并运算还是直接获取这些元组序号，以及通过求补集的方法来求交集，都能够明显提高整个区域查询的效率。这也就是该存储结构所特有的地方。?? 　　　　4结束语?? 　　　　本文提出的立方体结构是一个部分数据立方体，它大大压缩了数据立方体的体积，尽管只给出了部分视图，但因为采用索引方式，可以较快地读取数据；同时因为运用集合交并补运算，使得区域查询有较好的查询响应时间。笔者今后的主要工作是进一步优化该结构和算法，考虑如何在空间压缩率和查询性能上取得更好的平衡。例如在实例化视图时，适当增加经常用到的非相邻维的方体，改进求交算法，在索引的情况下进行求交运算等，使得在能够接受的空间压缩条件下进一步提高查询响应速度。　　　　参考文献: 　　[1]GRAY J, BOSWORTH A, LAYMAN A, et al. Data cube: a relational aggregation operator generalizing group－by, cross－tab, and sub－totals[C]//Proc of the 12th Int’l Conf on Data Engineering.New Orleans: [s.n.], 1996:152－159. 　　[2]WANG Wei, FENG Jian－lin, LU Hong－jun, et al. Condensed cube: an effective approach to reducing data cube size[C]//Proc of the 18th Int’l Conf on Data Engineering. San Jose: [s.n.], 2002:155－165. 　　[3]LAKSHMANAN L V S, PEI J, HAN J W. Quotient cube: how to summarize the semantics