复杂Twig Query查询技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:airfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML查询技术一直是国际和国内很多研究所关注的热点,随着Web应用的快速增长,XML数据逐渐成为数据存储的一种新的标准,由于XML数据半结构化和有序性的特点,针对XML数据的复杂Twig Query(CTQ)的应用也越来越多,受到研究者的广泛关注。相比于树状结构的Twig Query(TQ),CTQ包含following-sibling,following等偏序关系的XPah轴,不同用树状模型表示,处理也更加复杂。  现有的复杂XML查询的处理策略可以分为两大类,在基于关系存储系统中,一般将CTQ查询转化为多重连接关系查询执行;在Naive XML数据管理中,一般是将CTQ首先分解成树状查询TQ,然后将各个TQ查询的结果通过结构连接算法连接起来,构成CTQ的查询结果。后者将TQ作为整体求解,能够部分的减少冗余中间结果;但是,无论是Naive XML数据库还是基于关系数据库的XML查询引擎,由于在处理中包含连接操作,不可避免的都生成冗余的中间结果,查询执行中的连接往往需要耗费大量时间。  本文研究CTQ上的查询技术,提出了一种基于整体连接算法的CTQ查询处理方法。包含查询表示模型、查询处理算法和查询执行框架等三个方面的内容。这个全新的CTQ查询处理方法是一种基于XML索引的查询处理策略,可以基于最简单的标签索引,也可以扩展到更复杂的结构索引上已达到更优化的查询执行效率。本文的工作集中关注XML查询技术,也就是算法方面的研究,这些查询技术和新的查询处理方法与现有提出的各种XML查询优化技术是完全兼容的。  本文的主要贡献可以概括如下:  1.提出了CTQ的表示模型TQG,它能够表达各种形式的XML查询,表示简单灵活。TQG可以作为XML查询处理的底层框架;同一个TQG有若干等价的表示形式,它们之间可以自由的互相转化,为高效的查询处理过程提供选择。最后,TQG上允许多样化的XML查询处理优化,包括根据模式信息进行查询的约简等。  2.提出了基于层次缓冲的兄弟(LR)关系结构连接算法,同简单的归并连接算法相比,这种算法是CPU最优的,同时,它能够按照左兄弟或者右兄弟的顺序输出连接的结果,可以有效的集成到改进后的整体连接算法中。此外,它也是使用关系引擎处理CTQ查询的关键技术。  3.提出了基于层次缓冲的整体连接算法,引入了“层次缓冲区”的缓存策略,可以将偏序的兄弟关系的处理集成到整体连接算法中,极大的扩展了整体连接算法的适用范围,是高效的CTQ查询处理的技术基础。本文仔细的论证了算法的正确性。  4.提出了面向CTQ查询的新的查询处理方法。在这个处理方法中,首先将CTQ表示成TQG,并进一步转化为“优化TQG”表示;接着,调用基于层次缓冲的整体连接算法执行查询;如果查询包含following/preceding轴,则引入“变量谓词”的策略进行特别的处理。这种处理方法一遍扫描数据,并且不产生中间结果;能够处理包含各种XPath轴的CTQ查询。作为一般的查询处理方法,向上支持各种查询优化的技术。  5.分析了本文提出几个算法的性能,并且与现有工作中经典算法进行了比较,大量的实验结果表明,本文提出的兄弟关系结构连接算法和整体连接算法是非常有效的。
其他文献
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、事先未知的、潜在有用的信息或模式。它融合了数据库、人工智能、机器学习和统计学等多个领域的理
博客的出现,使互联网从“信息共享”过渡到“知识共享”,而目前高校教师的教学方式又存在种种弊端,亟待创新和突破瓶颈。基于博客的教学知识管理系统,越来越受到教育工作者的关注
随着互联网的发展及各种电子文献资料的普及,高效的信息组织管理和检索成为信息资源利用的关键问题。而目前较成熟的信息检索工具和搜索引擎大多是基于检索提问式关键词匹配技
重构是在保留软件外部行为的同时重新组织代码的过程和一组技术,由于它在创建敏捷代码方面的实用价值而受到普遍欢迎。目前的重构步骤只是将代码模块化为整洁的面向对象实现,
由于太空具有微重力、超洁净等特殊环境,很多在地面无法完成的实验可以在太空得到实现,因此,各国竞相发展自己的空间实验事业来促进科学技术和国民经济的发展。但是随着实验的要
学位
隐马尔可夫模型(HiddenMarkovModel,HMM)是将实时信号源视为Markov信号源或Markov链的概率密度函数的一种统计模型,一直被公认为是处理与话者无关语音识别研究的主流方法。目前
随着企业信息系统开发技术和水平的不断提高,对其功能的要求也越来越全面。信息系统不仅要完成企业基本信息流程的组织处理,而且随着知识管理越来越受到人们的重视,还要有一些辅
随着用户对软件产品性能需求的不断增加,软件规模越来越大,复杂性也越来越高。为保证软件质量、提高软件的可靠性,以软件体系结构为设计规范的开发方法越来越受到软件开发人
随着软件产业的发展,手工软件测试已经满足不了软件测试的要求,自动化软件测试技术显得越来越重要。但自动化软件测试也存在着一些局限性,不能完全替代手工软件测试,因此在什么情
当前,无论是整个社会的发展,还是军队自身的改革和发展,都对军队财务管理工作提出了更高、更新的要求,建立以信息技术、计算机技术、网络技术为支撑的军队财务综合信息管理系统是