基于版本树的XML查询研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:baby_xiaojuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从W3C发布了XMK1.0规范以来,XML日益成为网络上信息交换的新兴标准。由于XML被用来作为数据表示以及数据存储手段的普遍性,针对XML文档数据的查询处理研究表现出越来越大的应用价值。尤其是将XML文档看成一个树形结构的数据模型,这种树形模型能够覆盖XQuery和XPath查询中非常有用的子集。近来,大量的基于这种XML树形模型的查询算法被相继提出,这些XML查询算法普遍存在的一个问题是算法的输入集规模和执行时间将随着XML文档规模的增长而迅速增加,从而导致对大规模文档进行查询非常低效。 本文提出了基于版本编码模式的TwigVersion算法来解决这个问题。本文的研究内容和特色如下: 1) 针对XML文档中的普遍存在的重复结构建立一种版本编码模式,利用版本编码模式对XML文档中的重复结构进行识别和标识。 2) 建立_个精简的数据结构——版本树来保存XML文档中的数据的结构信息。基于版本编码模式,TwigVersion算法通过对XML文档进行两次等价类划分产生XML文档的版本树,它是一种保存了原始XML文档的全部结构信息的精简的数据结构。 3) 设计与实现基于版本树的TwigVersion查询算法。针对一个XML查询,TwigVersion算法利用版本树上的信息,通过自底向上的版本推导和版本交集运算产生查询结果的版本过滤器,最终的查询结果通过版本过滤器可以从数据库中简便的过滤出来。 论文提供了理论证明和大量基于真实数据和人工数据的实验结果,证实了版本树结构以及算法输入集规模的精简性使得TwigVersion算法的效率与当前的其他XML查询方法相比具有明显的优越性。
其他文献
随着监测环境的日趋复杂,迫切需要将图像、音频、视频等信息量丰富的媒体引入到以传感器网络为基础的环境监测活动中来,实现细粒度、精准信息的环境监测。图像传感器网络是由
在网络上,由于视频经常被复制、编辑并重新上传,导致出现了很多相似甚至重复的视频,对视频进行基于内容的相似性检索可以有效解决该类问题,对于视频内容的发布商以及监管者而
Gallager在1962年提出的低密度奇偶校验码(Low-Density Parity-Check Codes, LDPC)是一类可以用稀疏矩阵或二分图定义的线性分组码。它具有性能逼近香农限、描述方便、易于进
本体(Ontology)的概念起源于哲学领域。自20世纪90年代以来,国际计算机界举行了多次关于本体的专题研讨会,如今本体技术已经发展成为知识表示、知识管理、知识共享、知识复用
衡量链接器性能的关键指标除了链接速度以及生成的可执行文件的性能外,就是可执行文件的大小。对于当今大型项目而言,程序工程中往往包含一些无用的代码块,这些代码块在一定
虚拟人的运动控制技术早已成为仿真系统,科学实验,三维动画以及游戏娱乐等方方面面中不可或缺的一部分,随着计算机硬件的发展,虚拟人运动控制技术必将在将来扮演更加重要的角
无线传感器网络通过大量部署于目标区域的传感器节点采集环境信息、建立自组织网络、以多跳方式传输数据,获得感兴趣区域的各种物理信息。目前已广泛应用于军事侦察、工农业
现代科学理论在研究与实践中存在大量与组合优化、自适应等相关的问题。使用常规方法解决这类问题,除一些简单情况之外,人们对于大型复杂系统的优化和自适应问题的处理显得无能
职业教育处于一种特殊的教育阶段,它所要求的是学生掌握的技能和理论的结合,注重培养学生实践操作能力。随着职业教育改革的不断深化,运用建构注意学习理论构建新型的教学模式,促
大数据时代,数据与自然资源、人力资源是重要的战略资源,隐含着巨大的价值,研究数据分析是大势所趋;数据可视分析是数据分析的重要方法,因而也受到了高度重视。首先研究了大