XML查询优化中的关键技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户：dengscc

【摘要】

：

Internet作为一个全世界信息发布和交流的中心，正在改变人们对信息处理的传统观念。XML具有自描述特点，支持用户自定义标记标明数据的语义，逐渐成为Internet中信息描述和信息交

【作者】

：

王宇

【机构】

：

中国人民大学

【出处】

：

中国人民大学

【发表日期】

：

2004年期

【关键词】

：

信息处理可扩展标记语言数据查询技术路径优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet作为一个全世界信息发布和交流的中心，正在改变人们对信息处理的传统观念。XML具有自描述特点，支持用户自定义标记标明数据的语义，逐渐成为Internet中信息描述和信息交换的事实标准。随着XML数据规模和复杂性的快速增长，人们对XML数据的查询效率提出了更高的要求。　　XML最初主要用于数据交换，数据量小，查询需求简单。早期的XML数据以文档方式存储，以关键字查询等信息检索手段查询，简单易用。但查询能力低，不能满足复杂条件的查询需求，更谈不上查询优化。一些现有的商业数据库如Oracle，DB2等，在系统中扩充了处理XML数据的功能。利用中间件，将XML数据分解并存储于关系数据库中，把XML查询请求转变为SQL等数据库查询语言表达，由关系查询引擎优化并执行，再将查询的结果转换为XML文档。这种方法利用商业数据库成熟的技术存储和查询XML数据，在一定程度上满足了查询复杂性的要求，但是查询语句和数据在不同模型之间多次的转换严重影响了查询效率。传统的数据库查询和优化技术不能满足XML数据查询效率要求，更多的研究者尝试从全新的角度考虑XML查询优化问题。　　与传统的查询优化技术相比，由于XML数据模型的复杂性，缺乏模式信息的有力支持和相对薄弱的相关基础研究，XML查询优化呈现独特的技术特色。主要表现在:查询树的简化，路径表达式选择性计算，表达式分解和受限的执行顺序选择等方面。　　本文针对上述问题，从语义优化，路径选择性计算，表达式分解和执行计划的选择等角度，研究XML查询优化中的关键问题，并将其应用到Native XML数据库管理系统OrientX中，获得了良好的效果。　　近年来，XQuery逐渐成为XML查询语言的事实标准。为了求解XQuery，人们提出了各种代数，目前广泛应用的基于树结构的代数用Pattern Tree Matching方法处理查询。由于各种原因，用户写出的XQuery查询语句中，会包含一些冗余信息，这些冗余信息转换为Pattern Tree中的冗余节点，直接影响了查询效率。其中一些冗余节点可以直接从Pattern Tree的结构中独立的判断，我们称这种冗余节点为语法冗余节点。另一类冗余节点需要模式信息的帮助才能找到并删除。人们称这种冗余节点为语义冗余节点。　　目前XML数据语义优化的方法主要是改进的chase方法和路径等价类方法，二者在优化的过程中，均需要首先扩大Pattern Tree的规模:改进的chase方法需把完整性约束作为冗余条件插入到查询表达式中，路径等价类方法需将不确定路径转换为确定路径。由于XML数据类型的复杂性，这种先膨胀再收缩的做法导致不彻底的优化和效率的丧失。　　本文提出了一种利用模式信息指导的Pattern Tree语义优化方法。我们根据模式信息提供的语义约束关系，和节点在Pattern Tree中的位置，总结出三个冗余节点判断规则。利用判断规则删除PatternTree中的冗余节点，从而达到减少Pattern Tree规模的目的。其特点是:无需把完整性约束作为冗余条件插入到Pattern Tree中，直接定位并删除冗余节点。我们首先提取出纯祖先约束，纯父约束和同时出现等完整性约束，然后利用它们提出并证明了简单叶节点冗余判断规则，叶节点冗余判断规则和非叶节点冗余判断规则。利用这三个规则不但可以判断冗余叶节点，而且可以在保留叶节点的情况下，判断冗余非叶节点。　　模式信息本身的复杂性会影响完整性检查和冗余规则判断的效率。为提高判断冗余节点的效率，我们设计了从模式信息中提取完整性约束的高效算法，和利用完整性约束判断冗余节点的语义优化方法。我们从模式信息存储代价，语义优化后的Pattern Tree规模和算法效率等方面，与等价类方法作了比较实验，从而证明本方法的可行性和高效性。　　用XPath表示的多谓词复杂路径是XQuery的核心表达式，其执行效率也是影响整个查询效率的关键因素。如何优化执行多谓词复杂路径是人们关注的焦点问题。多谓词复杂路径表达式包含多个谓词分支，不同的分支对查询目标的选择性不同，如果选择性低的分支先于选择性高的分支执行，就会有效的减少中间结果从而提高查询效率。因此，如何精确的估计位于不同分支的节点的选择性成为研究的热点。　　多谓词复杂路径中，既隐含数据之间的嵌套结构，更有对分散在结褐中的值的计算(。)为了精确的计算某节点的选择性，需要综合考虑表达式中所有节点对该节点的影响。传统方法在计算节点代价时需大量使用正态分布和独立性分布等假设。但XML数据有复杂的层次结构(,)文本和数值等分散在层次结构中。相关节点的分布以及节点值的分布很难满足传统代价计算常用的分布假设，导致代价估计误差(,)因此正确的抽取XML数据的分布特征，尤其是抓住数据之间的相关性，是决定代价计算精确性的关键因素。　　XML数据的相关性表现在两个方面:值相关和结构相关。值相关表现在不同类型的节点值有相关性。传统的方法采用多维直方图统计这类数据分布。其缺陷有三:首先是很难在具有半结构化和自描述性的XML数据中确定哪些数据是相关的，而人工指定的方法存在明显主观性。其次，由于结构的相关性，值的相关性会沿着嵌套关系扩张，导致直方图维数和个数的爆炸性增长，存储和维护庞大的统计信息会严重降低方法的可用性(。)最后，若计算涉及多个直方图，仍需独立性假设综合直方图的统计结果，导致误差的产生。结构相关性表现为嵌套在不同祖先中的同类节点个数不同。通过抽取模式统计结构信息的方法从整体上把握数据的分布情况而忽略了细节，只适用于数据分布均匀的情况。直方图方法能够体现细节的分布变化，但是，事先建好用于选择性计算的所有节点任何谓词情况的直方图是不可能的。　　XML数据是结构和数值的混合体，目前的方法在计算多谓诃复杂路径表达式中的节点选择性时，孤立的考虑值的分布，或者结构的分布，利用独立分布假设综合计算结果的方法必然导致误差的产生。为此，我们提出了一种基于直方图计算的多谓词复杂路径选择性代价计算方法。我们设计了一种新颖的二维直方图，正确的反映值与位置的关系。把结构的相关性隐含在直方图的位置关系中。所有直方图具有一致的分格，通过直方图运算计算路径中任何节点的选择性。这种方法能够在数据分布扭曲，并且查询条件复杂的情况下，准确的计算多谓词复杂路径表达式的代价。　　沿路径逐个计算节点选择性的方法，当路径很长时，运算次数相应增长，导致代价计算效率的下降。发现，在模式指导下，一些运算可以被跳过。为了提高代价估计的效率，构造了模式与直方图相结合的统计信息模型，给出了利用模式信息简化代价计算树的定理和模式指导生成代价计算树的高效算法(SGM)。通过与著名的复杂路径计算方法XSketch在统计信息存储，代价计算效率和代价估计精确性三个方面的比较实验，验证了本方法的优越性。PM和SGM方法的效率比较实验证明SGM方法可有效的提高代价估计的效率。　　Pattern Tree(PTQ)是复杂的树状结构(,)求解PTQ的过程是查找与之匹配的XML数据的过程。在PTQ中，只有部分节点是需要输出的查询目标节点，其余节点只是中间结果。因此，如何在求解过程中尽量避免中间结果的产生和存在周期，是XML查询优化面临的一个关键问题。　　目前的研究工作集中在高效算法的研究上，显然，只在求解的最后阶段讨论这个问题是不够的。试图从更广泛的角度,研究这一问题。从逻辑层，我们提出了一种PTQ分解策略，能够有效的限制中间结果的产生。在此基础上，在代价估计层，提出了基于生存周期的中间结果规模计算方法，可以正确地反映查询执行时的中间结果状态。利用这种计算方法确定的执行顺序，中间结果的总体规模最小，并且中间结果存在的周期最短。　　本文的工作是在Native XML数据库管理原型系统OrientX的基础上进行的，所提出的许多技术在系统中得到了应用。大量的实验都在原型系统的基础上进行。

其他文献

基于卫星技术的远程多媒体教学研究与实现

改革开放以来，中国职业教育事业有了很大的发展，各级各类职业学校教育和职业培训培养了大量高素质劳动者和实用人才。　　同时，朱镕基在中南海主持召开的国家科技教育领导小组第

学位

远程多媒体教学卫星通讯人才培养质量管理

基于Web服务的遗留应用数据访问研究

由于企业信息化本身是一个演进的过程,因而在企业中存在许多不同的遗留应用系统,并且有些遗留已经成为企业分布式计算环境的关键组成部分,不能够被替代.这些遗留应用需要与外

学位

遗留应用Web服务J2EEXML

模块化RBF神经网络分类方法及其在人工嗅觉中的应用

该文主要研究基于径基函数(Radial Basis Function,RBF)神经网络模式分类方法以解决人工嗅觉系统中的学习问题.为此,该文提出了自适应模块化RBF型神经网络分类器,每一个分类

学位

大规模模式识别RBF网络子类人工嗅觉

基于WEB的网络应用程序开发模式的研究与应用

人们一直在关心和研究的异构机型、异构操作系统、异构数据库以及异构网络环境下信息共享与可移植性的问题。如何根据企业自身环境，选择适合企业自身环境的应用程序开发模式，开

学位

TCP/IP协议ASPJAVAServletODBCJDBC客户/服务器浏览器/服务器网络数据库

一个支持JMS的消息中间件系统的设计与实现

消息中间件是中间件领域中应用最广泛、销售量最大的一类中间件产品.它为应用程序提供可靠的消息通信手段,能够在不同的操作系统平台、硬件系统之间进行数据通信.该文给出一

学位

消息中间件JMS标准接口

皮带秤数据采集在煤炭装卸MIS中的应用研究

我们正处在网络技术、通讯技术和信息技术飞速发展的时代。随着我国加入WTO以及经济全球化发展的日益加快,对企业竞争力的认识也在不断地深化。面对新的机遇和挑战,如何更好

学位

MIS面向对象皮带秤传感器无线数据传输串口通信数据采集

基于内容的视频摘要研究

随着数字视频数据量的增加,急需一种基于内容对视频片段进行快速检索和测览的技术,这一技术便是基于内容的视频检索技术,目前,该技术已成为国际上多媒体领域研究的一个热点问

学位

视频摘要视频数据模型基于内容的检索新闻视频关键帧

柔性企业信息发布平台的研究与实现

为了有效解决企业信息发布多样性、不确定性、实时性和低成本的问题,本文从柔性软件理论和信息发布系统领域两个方面,对国内外研究现状进行了深入分析的基础上,对柔性企业信

学位

柔性软件柔性模型柔性理论自定义查询柔性发布平台

多层感知器的分类机理及其在大规模学习问题中的应用研究

该文分析了多层感知器的分类机理,提出在输入空间中隐基本函数所决定的超平面并不起到分界面的作用.该文认为隐节点数只与类别数和样本在输入空间的分布情况这两个因素有关.

学位

感知器隐节点数模块化人工嗅觉

平面饰带群非线性动力系统的计算机图形化研究

对称群的计算机图形化研究已成为当今科学研究中的热点问题,许多科学家已经对二维、多维空间的对称群进行了研究.该文在Sprott等人的研究成果基础上,实现了随机搜索饰带群映

学位

混沌对称群M集混沌吸引子充满J集

XML查询优化中的关键技术研究

与本文相关的学术论文