基于索引的XML小枝模式匹配问题的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:ynhz009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet发展到至今已经完全渗入到人们生活工作的各个方面。作为半结构化语言XML已经成为一种最重要的数据载体,在Web服务、电子商务、数字图书馆等诸多网络等领域的数据描述标准。研究表明,当今国内外研究的重点集中在以下两点:如何有效查询和管理XM数据与如何方便用户从海量的XML数据中提取他们所需要的信息。因此,许多对XML数据查询的研究就由此出现了,从而使得XML数据查询成为XML数据管理领域的一个热点。本文从XML数据库系统角度出发,透彻分析了目前存在的XML文档树的小枝查询技术与面临的不足。通过研究与改进编码方案来快速的组织XML文档,并且根据XML查询的特性,本文提出了一种新的索引REI,这是一种有着简单的数据结构和严谨的逻辑结构的索引技术。同时,为了进一步提高查询的效率,本文的索引还利用了改进的区间编码方案来组织和引用XML数据。基于以上的研究,本文还对XML文档的查询做了细致研究。XML查询中的路径表达式可以表示为树状查询独立地描述查询要求。XML数据查询主要分为单路径和多分支路径查询。在这两种路径查询方面,XML查询都可表示成小枝模式查询,在XML数据库中找到所有出现的小枝模式是当前XML查询处理的核心操作。基于这个思想,本文提出了一种新的基于索引的查询模型。在借鉴已有相关算法的优点,摒弃其中诸多缺点的基础上,采用改进的区间编码快速判断结点之间的祖先-后裔或父-子关系,并利用索引REI,进一步设计了一种新的高效的算法RE-TWIG,该算法可以有效的减小查询中的复杂度和冗余,快速的得到目标结点。本文的主要工作和创新点有以下几个方面:1、研究了主流XML文档的结点编码方案,研究了小枝路径索引的分解方法与查询方式。根据本文查询算法的特点,采用改进的区间编码方式,以此快速的判断结点直接的逻辑关系。2、本文提出了一种索引REI来存储XML文档。对于任何XML索引,在设计与实现的过程中都要考虑到XML查询的基本特征,其中包括逻辑结构的保存以及基于结构信息快速判断结点间的关系,除了以上两点还必须做到一条:满足高效处理XML查询的请求。通过其与将经典索引进行的数据集对比实验的结果来看,对本文提出的索引完全符合这一要求。3、在前两点研究的基础上,提出、设计并实现了一种基于改进区间编码和REI索引的小枝模式查询算法。该算法包括目标结点筛选和小枝查询模式匹配两部分。并通过实验给予了性能验证。为了便于对以上研究点的理解,论文以一个XML文档树的例子为依据,举了一个通用查询实例,详细展示了算法运行的全部过程。本文对如何有效的建立XML数据库索引以及查询技术方面进行了深入的探索,为更好的解决此问题提供一种行之有效的思路和方法。本文的课题基础也是目前XML查询领域中应用比较广泛的技术,不但为如何更好的进行XML文档树编码和索引的设计提供了思路和方法,同时也为基于索引的小枝查询的研究提供了一定的帮助,这使本文课题研究既具有探索性的理论研究价值,也具有一定的应用价值和现实意义。
其他文献
特殊曲面是指那些具有一些特殊几何性质的曲面,如球面、椭球面、Bezier曲面、圆环面、管道曲面等。由于他们都具有一些特殊的性质,他们在计算机领域有着广泛的应用。因此研究
互联网时代的到来推动了网络计算模式的转变,从并行计算、分布式计算、网格计算发展到了云计算。面对云计算的到来,虚拟化技术似乎成为云计算的得力助手,使云计算具有了更高
基于生物体信息处理机制模型以及算法研究已成为人工智能领域的一个新的热点,它体现了现代科学研究中关于多学科、多领域间的交叉融合、互相促进以及相互渗透的特点。生物体
验证码技术是当今计算机安全领域与人机交互领域的前沿课题之一,在互联网领域有着广泛的应用。日常使用的验证码大部分是基于视觉图片验证码方式,给残疾人中的视力障碍者造成
随着众多企业开始应用项目管理的方式管理企业中的各项活动,作为管理科学的一个分支,项目管理已经成为企业中不可或缺的一项内容。在具体的项目管理中,如何使资源在不同任务
工作流管理是实现企业过程集成、提高企业运行效率和柔性的一种支撑技术,是计算机科学、管理科学、自动化科学等多学科领域关注与研究的热点问题之一。它根据一系列规则,文档
XML(Extensible Markup Language)是被W3C基于标准的广义标记语言所创建,被用作定义语义标记。在Web服务、电子商务、数字图书馆等诸多网络相关应用领域已经成为描述数据的事
网格中的资源管理和任务调度很复杂,传统的资源管理和任务调度方法已经不能适应网格环境。将经济学模型引入到网格体系中,把经济学的方法应用于网格资源管理和任务调度,是近
无线传感器网络中的节点以自组织多跳的方式运作,作为底层硬件,传感器节点在信号的感知、收集、传输过程中均存在能量消耗。由于传感器节点能量有限,必须采取高效的节能技术提高
无线传感器在国民经济、科学研究等领域已经应用地越来越广泛,同时它所面临的安全威胁也越来越大,但是目前针对无线传感器网络的安全防范研究相对较少。   本文将重点考虑无