XML查询若干关键技术的并行化方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:yumenglu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及和网络服务的飞速发展,XML作为一种信息交换和存储的标准被广泛使用。XML查询处理是XML数据利用的主要方式。由于XML数据量和XML查询需求的快速增长,人们对XML的查询性能也日益重视,各种查询优化技术成为研究热点。近年来,多核环境的普及为并行计算提供了良好的机遇,面向多核计算的并行化设计成为提高程序性能的重要途径。如何充分利用多核计算来提高XML查询性能成为重要的研究课题。XML查询技术体系以XQuery查询语言为核心,包含XPath求值和XML解析等关键技术。XML解析在XML应用中必不可少,由于对大数据量的解析是高耗时的工作,解析几乎成为大多数XML应用的性能瓶颈,有并行处理的必要。XPath专门用于访问XML数据,是XQuery的重要组成部分。导航式XPath求值方式由于具有容易满足查询语义,适用范围广等优势,在查询引擎设计中广泛使用。然而与多数Twig求值方法相比,导航式方法性能较为低下,通过并行化将提高其性能。XQuery作为主流的XML查询语言,是XML查询技术的核心,其执行效率决定了XML应用的性能,因此需要对XQuery进行并行化处理以提高其执行性能。XQuery是一种函数式语言,具备一些并行化优势,然而并行机会隐藏在各种嵌套中,难以直接并行化,目前尚未出现完整的自动并行化解决方法。鉴于XML查询涉及多项关键技术,一个兼顾各项并行化技术的整体解决方案将有效提升XML查询的整体性能。  本文针对XML查询相关的若干关键技术的并行化所面临的问题提出相应的解决方案,目的是为了充分利用多核计算资源,通过并行计算以提高XML查询性能。本文的创新性研究工作如下:  (1)提出了一种基于并行子树构建的XML解析方法。该方法采用一种轻量级的数据划分预处理方法,避免了高代价的划分预处理和复杂的预处理优化;支持对XML数据任意分片的解析,便于负载平衡处理。解析过程中首先进行数据划分,然后并行构建各个分片中的子树,最后通过子树合并获得全局的文档树。实验验证了该法能有效利用多核计算环境,实现XML的并行解析。  (2)提出了一种基于节点关系矩阵的XPath并行求值方法。该法包含节点关系矩阵的并行构建和并行查询求值这两个阶段。根据XML数据的区间编码进行关系矩阵构建,通过并行查询原语序列的执行实现XPath表达式并行求值。其导航式特点使得XPath的各种查询语义容易实现,支持包括反向轴操作和以谓词形式表达的分支查询等操作。由于对应相同XML数据的关系矩阵可以被不同查询复用,提高了数据的利用率。各阶段计算的并行化能利用多核资源提升XPath求值性能。实验测试显示了该法具有较高查询效率;在多核条件下,能进一步通过并行计算提高求值效率。  (3)提出了一种基于函数式中间语言的XQuery自动并行化方法。该方法发展了一种具备并行语义,且与XQuery相适应的函数式中间语言pFXQL,以此作为并行查询计划的描述工具。自动并行化的过程是一个中间语言自动重写的过程:通过划分获取可并行块,据此发掘可并行化机会;结合依赖判别条件和计算代价模型进行可并行块的标识和组合,进而完成并行计划的生成;结合并行代价模型,完成并行计划的优选;通过调用并行原语完成并行执行,而无需依靠复杂的集中式调度机制。该法能综合应用数据并行、流水线并行和任务并行等方式来完成并行执行。各种多核条件下的实验结果显示,通用测试案例经由自动并行处理后获得了性能提升,并行化效果良好。  (4)提出了XML查询并行化整体解决方案。该方案包含XQuery并行化、XPath并行求值和XML并行解析等技术要点,能自动完成XML查询中各功能部分的并行化处理,充分利用多核资源以提高XML查询的整体性能,支持高效的面向多核计算的XML应用系统的开发。  本文通过在XML查询引擎上完成各项并行化技术的整合,实现了一个XML查询并行化测试平台。在该平台上完成各关键技术的并行化测试评估以及整体并行化测试评估等工作。
其他文献
该课题主要研究对移动节点临时地址和永久地址的绑定.主要过程是:移动节点根据邻居发现算法来检测移动与否,若移动了,就用地址自动配制获取一个转交地址.然后移动节点发送绑
随着因特网络的发展、网络上信息量的增多,智能代理(Intelligent Agent)技术已经逐渐成为计算机研究领域中的一个崭新的课题。本文对因特网上智能搜索Agent作了比较深入的研究,其
本论文研究的课题是研究1751芯片,主要研究1750A系统存储器管理和保护。 作为1750A系统设计的一部分,1751与1750A CPU和1752协同工作,实现嵌入式系统1750A系统的完整功能。为
检测技术的快速发展,出现了许多新的问题有待研究,有很多是传统方法难以解决的问题。由于检测技术在现代社会的重要性,人们在不断探索研究新的检测技术。可拓学是一门新学科,用于
该文从基于构件的软件开发方法的这些特点出发,研究、解决了与这种软件开发方法相适应的软件配置管理技术.该文的工作分为以下几个主要层次:首先,该文提出了基于构件的软件的
该文对Web计算资源发布若干基本问题作了深入研究与探讨,然后讨论了电子商务中的安全和原子等问题并给出解决方案,最后应用Web计算资源发布和电子商务的研究成果,设计了一个
近年来,随着国际互联网的迅猛发展,信息安全、数据保密显得越来越重要,其核心——密码算法的研究也越来越成为一个至关重要的课题。 本文在介绍密码学的两种基本密码算法——
该文首先简单介绍了OIO(Oil in one)软件平台的结构和内容,然后提出了领域框架:勘探开发应用框架需求和开发模式.通过对而向对象技术和组件、框架技术,可视化模型和UML语言的
该文通过对激光束能量场分布和传输特点、光学成像系统原理及光电传感器的工作特点的分析,建立数学模型,提出了三种构造光学系统点扩散函数(PSF)的方法,根据光学系统的卷积模
该文深入研究了汉语基本短语识别和汉语BNP识别技术,取得了以下研究结果:首先探索了汉语基本短语体系的定义,提出的汉语基本短语充分体现了汉语的普遍规律和特点,阐明了它在