树模型XML数据的压缩存储及查询处理方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gf_lucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来Web Service的蓬勃发展, XML ( extensible markup language)越来越多地活跃在数据交换和存储领域,用XML表示的半结构化数据得到越来越普遍的应用,XML已经成为Internet上信息表示和交换的重要标准。然而,由于一方面XML数据大幅增长,另一方面XML数据存在着非常大的冗余,如何有效的存储和查询大规模的XML数据成为当前研究的一个热点问题。当处理大数据量XML数据时,首要的是为之建立行之有效的磁盘存储结构。为此,本文首先提出了一种基于F&B索引的XML数据的磁盘压缩存储结构LDF&B,其优点在于:一方面,LDF&B摒除了传统存储方法中相同的值信息重复存储带来大量冗余的问题;另一方面,该结构引入的同带索引与反向索引结构将具有相同性质的节点聚集在一起,使得可以快速的定位到满足条件的节点集,很好的支持了其上的查询处理。其次,我们给出了基于LDF&B存储结构的一系列查询处理算法。第一、对于含值的查询,在过滤掉大量的不满足条件的中间结果的同时,减少了大量中间结果的匹配操作,高效的实现了Disk-based F&B[1]中无法处理的含值的查询,并且相对于正向先匹配结构信息后判断值信息的算法,查询的效率也有着显著的提高。第二、对于分支查询的处理,相比于Join的方法,所需遍历的节点数量得到很大程度的降低,并且无须保存中间结果即可得到最终结果集,内存开销极小,使得分支查询的处理效率明显提高。第三、对于单路径查询的处理,本文提出的方法可以迅速定位出匹配查询条件的结点,减少了需遍历的节点数量,提高了查询处理效率。最后,我们对LDF&B上的查询处理算法进行优化,借助LDF&B中的辅助信息,寻找查询的优化执行顺序,进一步的提高了单路径查询处理的效率。理论分析与实验结果均说明本文的算法具有较好的伸缩性与很高的查询执行效率。
其他文献
信息网络技术的飞速发展和全面应用将世界带入了一个全新的时代。人们在享受网络科技带来的方便和快捷的同时,也更加关注网络的安全。如今,它己经成为国家有关部门、企事业单位
随着嵌入式技术和无线网络技术的发展,物联网已经不再是我们遥不可及的概念,它将是继计算机、互联网与移动通信网之后又一次信息产业革命。所谓物联网就是指在传统互联网的基
随着我国航天事业的进步和深空探测活动的开展,深空探测器中大量的数据传输需求与有限的信道容量之间的冲突亟待解决。为了在有限的信道容量下能够传输更多的信息,各个航天大
基于单视觉通道的唇读技术研究,是独立的研究唇读这种常用于辅助语音、手语等识别的技术,研究其作为单独的语言感知通道的可行性,为今后将唇读研究转化为应用做好前期工作。本文
随着我国空间技术的发展,对空间电子设备的长寿命和高可靠性提出了越来越高的要求。电子装联工艺质量检测技术是保证空间电子设备长寿命和高可靠性的重要基础之一,目前,国内的电
传统的隐马尔科夫模型(HMM)的训练方法基于统计概率的最大似然准则(MLE),在训练样本数目足够大的情况下,这种方法在理论上可以得到最优的结果。在手语识别研究中,采集足够大的训练样
链接分析是社会网络分析中非常重要的一类问题,关于社会网络的众多工作都是希望从网络中挖掘到更多的知识,包括节点的信息、链接的信息、网络社区的信息等等。链接分析则是对
本文所研究的说话人分割与聚类技术是语音识别领域中一个较为新兴的研究方向。该技术主要是针对含有多个说话人的对话型语音,例如含有两个人的电话录音、包含多个人的会议录音
作为一种服务化的网络制造新模式,云制造为制造业由生产型向服务型转变和升级带来了新的思路,通过对现有制造资源进行整合来实现资源的快速共享与高效利用。随着云制造技术的普
随着因特网应用的发展,XML成为数据描述和数据交换的标准,因此大量的XML文档出现在网络应用中。对于这种情况,XML数据的有效存储和XML数据的快速查询,成为当前急需解决的问题。针