XML数据索引技术与优化

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:tanzhiming1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着互联网的不断发展,数据交换也变得频繁,由于XML的可移植性以及自述性等特点,使得它逐渐成为商业、工业以及生活中重要的一种数据交换标准。XML不断地被应用,从而使得XML数据量不断增加,这样也出现了查询数据效率的问题,如何解决这一问题成为当今的热点问题,虽然不断有学者提出算法来提高查询性能,如基于缓存、编码等方法,但同时这些的方法也具有相应的缺陷。本文对XML查询进行了深入的研究,针对XML数据的管理、XML数据元素的编码以及索引问题进行了深入的阐述,同时本文还提出了两种提高XML文档数据查询性能的算法FC-Index和算法FSM:(1)支持合并操作的索引算法FC-Index为了提高XML数据查找性能,关键问题是能够避免对无关元素进行查询。通过对XML文档数据合并,可以减少文档中元素的数目,同时还能够避免查找冗余结点,有效的提高查询效率。本文提出了一种基于Ctree的新索引结构FC-Index,它通过合并结构中“相同”元素压缩结构,从而在查询过程中过滤掉与查找无关的元素,同时基于FC-Index索引结构提出一种新的查询方法,能够有效的针对FC-Index进行快速的查找。(2)支持过滤操作的索引算法FSM在对XML文档数据进行匹配过程中,重复扫描会产生许多中间路径;由于XML文档数据的不确定性,使得过滤结点对查询效率提高不明显.本文针对这两个问题提出了一种新的索引算法FSM,该算法能够有效地解决了不必要路径的归并问题,同时改进了过滤结点方法提高效率不明显问题,通过大量实验表明,FSM优于以前的算法,提高了查询性能。总之,本文提出了分别支持过滤结点以及能够避免中间路径的两个索引算法。通过大量试验表明,这两种算法能够有效地提高XML数据查询性能。
其他文献
P2P应用带来了大量冗余信息、安全性问题、合法性问题、以及严重占用带宽问题,由此对P2P流量进行识别控制显得尤为重要。针对目前P2P流量识别问题,在研究了已有的识别技术的基
跨文档指代消解是自然语言处理的重点和难点之一,是信息检索,信息抽取,多文档摘要等应用系统的重要组成部分。在数十年中,指代消解的研究只是局限于单篇文档内的研究。随着研
随着网络规模的日益扩大,网络已经成为巨大的信息资源库。其中很大部分信息被“深藏”于各类在线数据库中,用户只能通过查询接口提交查询来获取里面的信息,这类网络信息被称
本文的研究主要来源于河南省重点科技攻关项目(No.092102210149)“基于区间结构的柔性化控制模型及其系统研究”和河南省教育厅自然科学研究计划项目(No.20098520015)“区间
随着信息技术的迅猛发展。在国民经济各领域对信息处理能力的要求也越来越高,尤其是高性能计算方面的需求快速增长。目前对高性能计算领域影响最大的是集群,它极大地提高了高性
无证书公钥密码体制是新近提出的一类新型公钥密码体制。它不仅继承了基于身份的密码体制不需要使用公钥证书的优点,同时较好地解决了基于身份的密码体制所固有的密钥托管问
随着通信技术的不断发展,电信企业之间的竞争也变的越来越激烈,过度的竞争导致企业利润的减少,使得各个电信公司不得不将传统的销售模式转移到以“客户为中心”的模式,通过增强企
学位
随着信息化社会要求的提出,计算机网络和通信技术得到了迅猛发展,同时,信息的安全越来越成为人们关注的热点问题之一。现代密码学技术是提供信息安全的一种最有效的方法,而根
从蛋白质的氨基酸序列预测蛋白质三维结构是当前生物信息学领域中的一个非常具有挑战性的问题。而蛋白质侧链预测是蛋白质结构预测以及蛋白质设计中非常重要的子问题。  
从软件工程的角度,本文对地理信息系统的研究现状和热点、开发理论技术做了一些探讨和研究,并以移动亲情通管理信息系统为背景,结合Web技术和GIS知识对系统的分析设计和实现