一种针对重复标签的XML文档索引结构及查询算法

来源 :山西大学 | 被引量 : 0次 | 上传用户:xiejie_850119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(eXtensible Markup Language)作为Internet上数据表示和数据交换事实上的标准,已经得到了快速普及和广泛应用。如何对XML文档进行有效地查询也就成为如今XML研究领域的一个重要的研究课题,而在查询中引入索引方案无疑是一种行之有效的方法。近年来,针对不同的XML应用,人们已经提出了不同的索引结构,如DataGuide,1-Index,F&B和XR-Tree等,这些索引结构能够满足不同特定环境下的需求。XML文档的查询通常被转化为两个结点列表之间的包含关系或文档位置关系的结构连接操作。根据XML文档结构的特点,这些列表中有些结点是能够事先判断出它们是并不参与连接操作的,因此可以先在XML文档的结构索引上进行过滤,从而减少需要处理的元素数量以提高查询算法的整体性能。已有的工作表明,可以通过在各种结构索引上执行过滤来提高查询效率。本文针对XML文档树中重复标签高频出现的现象,给出一种可以高效处理这种重复标签结构的索引存储结构RS-Index,在查询算法中利用索引信息,能够快速过滤与查询无关的元素,以达到提高查询效率的目的。本文的主要工作是:(1)提出了一种针对重复标签的XML文档的索引结构RS-Index,并给出了相应的索引结构形成算法。(2)在RS-Index的索引结构上提出了相应的过滤算法。并以该过滤算法为基础,给出了一种新的查询算法,快速找到满足查询条件的元素序列。(3)构建了一个实验系统,在系统中实现了本文提出的索引结构、过滤算法和查询算法。(4)把本文提出的RS-Index索引结构与其他相似的索引结构在通用的数据集上进行了较为全面的比较。实验数据表明,使用该索引结构及其查询算法,对于具有大量重复标签的XML文档,可以提高查询效率。
其他文献
随着计算机和计算机网络的飞速发展,信息系统安全成为当前研究的热点课题。构建一个安全的计算机信息系统的根本是拥有具有自主知识产权的、安全的硬件、系统软件和应用。数据
近年来,随着笔记本电脑、PDA以及手机等移动设备功能的增强以及应用的普及,移动计算得到了广泛的应用,互联网设备的移动支持也变得日益重要。蜂窝通信网络将成为未来Internet的
本文使用的是基于在线辨识技术的反馈控制技术,可以适应次路径中的变化.在与反馈控制的对比实验中,将管道端口堵上之后分别使用反馈控制技术和基于次路径在线辨识的反馈控制
近年来,随着射频识别(RFID)技术的快速发展与广泛应用,RFID系统中的数据安全等问题也日益凸显出来,引起了人们极大的关注与争论,使得RFID技术进一步的推广受到严重的阻碍。目
文本分类(Text Categorization)是自动将一组文本分类到预先定义的类别中的任务。自动文本分类可以帮助人们从繁重的大量文本手工组织中解放出来,而且结合了信息检索与机器学习
Web应用程序以其操作简单、方便全世界信息交流等特点,已成为当前网络应用的主要形式,因此快速开发Web程序具有较大的经济意义。但是Web应用程序开发存在较多复杂因素,第一:如何
随着WWW技术的发展和普及,人们不再仅仅满足于被动地从网络中获取信息,更多的用户开始将自己的文章放到网络上与其他用户交流。在这一过程中,Web论坛作为用户发表文章的场所,也迅
21世纪全球进入了信息经济时代,信息的重要性,促使人们逐渐把目光从物流、资金流,转移到了企业内部的另一个流:信息流。企业信息流的顺畅与否严重影响企业的经营决策。  针
粗糙集理论是上世纪八十年代初由波兰学者Z.Pawlak提出的一个数据分析的有力工具,近年来日益受到各领域的广泛关注,并已在机器学习、模式识别、决策分析、过程控制、数据库知识
鞍山市土地利用规划管理信息系统的研究正是为满足鞍山市建委对鞍山市城市土地规划利用的信息化需要而实施的.本系统将地理信息系统应用于城市土地利用规划管理中,采用了组件