基于结点分发的分布式Twig整体匹配查询处理算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:shingohit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML已成为Web数据交换和信息表示的事实标准。随着XML数据量的急剧增长,如何对这些正在快速增长的海量XML数据有效地组织和存储,并提供高效快速的数据检索,是当今数据挖掘领域的一个研究重点。目前,XML数据的存储和检索一般还使用原生的XML数据库或者关系数据库,但这类系统无法满足海量XML数据的性能要求,而基于分布式的XML数据存储和检索技术也尚未成熟。MapReduce的出现在一定程度上缓解了上述问题。MapReduce是一种处理海量数据的有效解决方案,但是基于该框架处理海量XML数据查询问题的研究成果却很少,而且现有的分布式Twig查询算法在Map阶段需要做结构连接操作,大多会产生大量无用的中间结果,此外,这种算法往往还需要额外的查询分解操作。针对以上问题,本文提出了两种基于结点分发的查询方案:NDTH算法和DTH算法,实现海量XML数据的Twig查询处理。本文提出的两种查询方案基于结点分发的思想,即在Map阶段不做结构连接操作,而是将处于不同分片上但却可能构成查询解的结点分发到一台Reduce计算节点上,这样在Reduce阶段就可以根据查询模式的特点,选择适合该查询且性能最优的整体匹配算法,如选用对祖先后代关系性能最优或父子关系最优的整体匹配算法等。本文首先基于ComMapReduce提出了 NDTH算法,该算法利用ComMapReduce的协调者节点收集全局的键值,通过全局键值能够舍弃那些不能构成最终查询解的结点,进而提高查询效率,同时保证最终查询结果不丢失。其次,本文通过对XML数据结构和MapReduce工作原理的研究,分析了现有基于MapReduce的XML查询处理方法中,文档分片技术的局限性,提出了松弛分割算法(Relax-Fragment)。该算法能够实现对XML文档的任意分割而不需要依赖查询信息。在松弛分片策略RFS的基础上,我们设计了基于松弛分片的DTH算法,该算法利用记录了分片祖先信息的松弛分片索引,能够加快查询速度,保证并行查询结果的正确性和完整性。最后,本文采用真实数据集进行实验,对本文所提的两种分布式Twig查询处理算法的实验结果进行了详细分析。本文实验结果表明,分布式NDTH算法和DTH算法能够减少海量XML数据查询处理时间,具有较高的查询效率和良好性能。
其他文献
随着人类科技的不断进步,众多交通工具在车身结构设计中选用智能结构来提升结构性能。智能结构诞生于信息科学工程和材料科学的相互渗透中,除了拥有同一般结构一样的承载能力外,还能根据内外部环境变化做出响应,具有精度高、响应快、分辨率高、体积小等特点,同时拥有自诊断、自适应、自修复等功能。同时,智能结构的迟滞特性也受到越来越多的关注,这种迟滞特性不但影响系统的输出精度,甚至威胁系统的稳定性。为了更好地使智能
住房是民生之要,是人民最关切、最渴望、最关乎其自身利益的需求。政府从管理型政府转变服务型政府的过程中,要将职能转变落实,加强公共服务,社会管理,将人民对工作的满意作
近些年来,使用噪声和非线性动力系统的随机共振现象检测微弱信号的研究引起了学者们广泛关注,主要研究内容包含随机共振模型的选择,信号的输出响应与失真恢复等.随机共振通过
设S =(a1,...,am;b1,…,bn)是一个序列对,其中a1,...,am和b1,...,bn是非增非负整数序列。若序列对S是某个简单二部图G =(X∪Y,E)的度序列,使得顶点集X和Y中各顶点的度分别为a1,..
图像在获取、传输、存储等过程中极易受成像设备、外界环境等因素的影响,形成各种干扰信息引起图像质量不佳,导致后续图像处理工作无法顺利进行。因此,图像复原算法的研究显
随着MPTCP(Multipath-TCP多路径传输控制协议)协议的不断演进,人们注意到MPTCP协议的鲁棒性、吞吐量、传输性能正在不断地增强,但对多路径传输缓存耗量的计算还在沿用单路径
在云即服务的当今互联网生态环境中,云服务提供商进入安全领域的角度和传统安全厂家的角度非常相似,以提供物理、网络、存储和虚拟化层面的安全服务为切入点,即网络基础架构
嵌入式网络系统,如无线传感器网络,越来越多地被运用到生产生活的各个方面。但由于嵌入式网络系统工作负载多变和资源受限的特点,异常检测和诊断往往十分困难。本文提出了一
在大规模数据中心网络环境中,使用单台SDN控制器通常存在性能瓶颈,因此常把分布式的多个控制器组成控制器集群,以提高对交换机的控制能力。针对多控制器方案中,由负载不平衡
类不平衡问题,也被称为不平衡类问题或稀有类问题,是模式识别和机器学习领域研究的热点问题之一。对于两类问题,类不平衡问题的特点是一个类(多数类)的实例数明显多于另一个