基于Hole-Filler模型的XML流数据剪切分片和查询处理技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:leader_007cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML文档具有比一般半结构化数据更多描述信息的能力和手段,因此XML使得网络在其应用方面体现出强大的功能和灵活性。由于网络中出现了XML数据流,针对它的查询和处理成为了首先要解决的研究课题。本文是基于Hole-Filler模型,对XML文档剪切策略以及查询框架提出的XML分片数据流查询处理研究。 由于数据流的不易预测性、无界性、多样性等特性,使得数据流很难同步。为了达到同步的效果,并且满足数据应用中的时实性以及服务器对数据的重发等要求,在传统的数据流管理系统的体系结构基础上,产生了新的基于分片的数据流广播模型XstreamCast。在这个模型中,服务器对数据流进行无序广播,为了记录每个分片的相关性,Leonidas Fegaras等人提出了Hole-Filler模型(即基于剪切的XML数据流模型)。在模型中,filler所对应的唯一标识ID能够记录每个片段的相关性。首先参考了DP分片规则的算法。该算法的主导思想是将XML文档树中每层扇出大的非叶子节点作为一个片段进行剪切。第二种分片方法叫SP算法,它摒弃了一开始就生成XML文档树的做法,采取了在SAX接口中将文档进行大块剪切,在每一块文档中对进行直接分片的方法。实验结果表明SP算法对宽树型文档的剪切性能最好,而且在增大分片粒度的同时,该算法也能保证管道的传输不受此变化的影响。 针对其中的SP算法生成的大量分片,在客户端又提出了几种查询框架。 对XML流数据处理提出了一个查询框架XFrag。在XFrag中,框架最大的优点是能够处理XQuery和节省内存。但是XFrag的管道处理形式在维持关联表的信息时仍旧会消耗掉大量内存。而且调度操作符也会增加查询的处理时间。在相邻的操作符中产生依靠性的时候它无法避免多余的操作符的大量操作。所以我们提出tid树并且在其上通过消除多余的节点达到对tid树的优化。依据优化的tid树,提出了XFPro查询框架,该框架可以更好的处理查询,节省内存。试验结果表明XFPro在处理时间和内存上都比XFrag有效。 然而,无论是XFrag还是XFPro,通过Hole-Filler模型里的简单编码方式filler id和hole id的匹配来处理查询容易导致查询阻塞。这种编码依据的是先序遍历文档得到的值,它可以直接找到两个分片之间的父子关系,但是却不能直接找到两个分片的祖先后代关系。这是XFPro处理查询的时候,无法加速查询处理的主要原因。因此我们采用了范围编码的方法将其应用到Hole-Filler模式中。并且提出了一系列技术来优化查询计划包括线性模式优化,TWig模式优化和嵌套模式优化。这些技术应用到XFPR(XMLFragment Processor with Region code)的算法中,减少了大量的冗余操作符,进而在查询过程中操作符可以跳过大量相关分片的处理达到加速查询处理的目的。最后,为了证明这个技:术的有效性,我们做了大量的试验。实验结果表明,XFPR算法可以极大地提高杏询效率。
其他文献
本文通过对8051体系结构、系统时序、指令集的仔细分析与研究,提出了一个优化的并且完全兼容8051指令集的新体系结构的设计方法,在这个体系中,大部分指令的工作周期都被缩短,基本
卫星的设计寿命必须要大于卫星在轨工作寿命。但是,如果两者相差很多的话,就会造成资源上极大的浪费,所以如何尽可能的使设计寿命接近在轨工作寿命就成为一个重要的课题,而其
在我国,肺癌的发病率在城市已居肿瘤死亡率首位。在肿瘤的早期阶段就进行检测与治疗是提高肺癌病人生存率的主要的也是关键的方法。随着计算机软、硬件技术的发展,借助计算机进
随着数字化校园建设的逐步完善和发展,各种基于校园网的应用系统风起云涌。它们独立认证的弊端使得校园网络集中管理难以实现,因此,建立一个统一身份认证系统,对网络用户实行统一
冲击地压灾害是煤矿安全生产领域最严重的动力灾害之一,冲击地压监测预警技术则是目前国际采矿工程和岩石力学界迫切需要研究解决的科学难题。本文结合国家科技支撑计划课题“
用于感兴趣区域图像编码的人脸特征检测和分析是感兴趣区域图像编码的重要前提,只有准确地定位和检测人脸感兴趣区域特征,才能为感兴趣区域图像编码提供有效的编码区域。目前
近年来,随着Internet应用的普及和飞速增长,网络提供的服务呈现多样化的趋势。很多用户要求可以在线欣赏音视频文件,使得提供音视频文件的网站迅速崛起。特别是近两年来,一些以We
本文研究了机器人足球仿真比赛行为设计与策略开发。首先,研究了仿真比赛机器人运动的基本算法位置控制算法,建立数学模型进行分析,在此基础上进行了改进,例如控制球员的运动
随着信息技术的迅猛发展,人们逐步迈向信息化的社会,由此教育信息化面临严峻的挑战。自从1990年美国克莱蒙特大学教授凯尼斯.格林提出数字化校园的概念,并伴随着人们对教育信
随着信息技术的不断发展,数据库逐渐成为信息系统的核心部分并广泛应用于企业、政府、军事等各个领域。数据库的安全对于整个信息系统的安全起到至关重要的作用。数据库的安全