云环境下海量XML文档的分布式Twig查询处理算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:zeng007008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,XML已经成为互联网上信息存储和数据交换的重要标准,因此,XML文档的数据规模急剧增长,使得海量XML文档的查询处理成为当前比较热门的研究方向。XML文档查询的核心操作是小枝模式(Twig)查询,但是传统的Twig查询处理算法在海量XML文档上的查询效率低,高效地查询处理海量XML文档的研究还很少,并且存在许多问题。云计算是当前处理海量数据的主流技术,云环境下海量数据管理技术研究主要包括数据分片和分布式查询处理。首先,在数据分片方面,本文提出了XML文档的任意分片算法AF (Arbitrarily Fragmentation), AF算法能够在保证分片的任意性的前提下,通过记录分割结点信息以维持XML文档结构信息的完整性。其次,在分布式查询处理方面,本文提出了基于MapReduce的分布式Twig查询处理算法DTS (DTwigStack),该算法利用AF算法记录的分割结点信息,分布式的处理所有的分片,并输出所有可能组合成最终的查询匹配结果的局部结果。然后,为了保证把有可能合并成最终结果的局部路径结果发送到同一个Reduce任务进行处理,本文引入了ComMapReduce框架中的Coordinator节点,用来收集DTS算法在Map阶段执行得到的键值信息,并在整合之后发送给所有的Mapper节点,重新修改键值,从而保证能够把具有相同键值的局部路径结果发送到同一个Reduce任务,并组合成最终的匹配结果。本文设计了一系列实验,包括分布式查询处理算法DTS的性能与Hadoop集群slave节点数之间的关系以及与数据大小之间的关系,并且对DTS算法的加速比,可扩展性和规模增长性的性能进行了实验。实验表明分布式DTS算法在海量XML文档的查询上具有良好的性能。
其他文献
电子病历是实现数字化医院的核心,也是医疗信息系统发展的热点所在。每个县以上的医院都需要建立计算机化的以电子病历为核心的医院信息系统。因此,开发电子病历系统,将现在的中
近几年兴起的小世界网络理论是由物理、数学、行为科学和计算机科学等多学科交叉生成。小世界网络真实地反映出现实中系统的某些重要特性,成为研究现实网络的有效手段,具有广泛
长江河道的采砂船管理工作一直是我国沿江各水政管理单位的“老、大、难”问题。近年来,长江中下游河道乱采滥挖江砂问题越来越突出,采砂船违规作业、破坏堤坝等问题严重影响了
发布/订阅系统是一种提供给信息的生产者和消费者互动平台的分布式中间件系统,其中同构发布/订阅系统的一类应用是易物服务、物品交换等,该系统的目的是使尽可能多的用户参与
AdHoc网络组网灵活,移动便利。然而,其信道质量差,网络拓扑动态变化,在AdHoc网络中提供服务质量QoS(QualityOfService)保证面临许多挑战。QoS是AdHoc网络研究的热点问题。 对A
传统的纸笔考试主要以经典测验理论为理论基础,一次考试以固定的考题考核所有学生。其主要弊病在每个特定的学生都有许多试题不是适应其水平的,考分难于严格区分考生水平真实
医学图像配准是医学影像处理的重要研究课题之一。借助图像处理技术对多幅图像进行配准和融合,能够在一幅图像上表达更全面的信息,辅助临床诊断和治疗。虽然配准算法在医学领
对于社会网络(Social Network)的研究分析主要通过对其内部和各个社会角色以及相互关系的研究,了解社会网络是如何组成和发展的。可视化技术是研究社会网络的重要研究手段,它将
目前,解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤方法是一个较为重要的方面,也是当前解决垃圾邮件问题的主流技术之一,它主要包括基于规则的方法和基于
本文的研究内容是面向Web的定题数据搜索与挖掘的研究及系统设计。通过自主开发的分布式定题Web信息搜索和挖掘原型系统Infox Studio 2,重点讨论了当前流行的Web挖掘以及搜索