原生的XML数据存储技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ubqazw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可扩展标记语言XML正逐渐成为INTERNET上重要的数据表示和交换的标准,作为计算机之间,人机之间目前比较合适的“数据格式”和“数据语义”的表示语言,在许多领域都存在着广泛的应用,而且正逐步深入。  XML数据的管理是应用过程中必须解决的问题之一。目前通过数据库管理系统实现对大量数据管理是最佳方式,XML也不例外。原生XML数据库(Native XML Database-NXD)正是为管理XML数据而引入,但原生XML数据库基于XML应用的多样性并没有规定具体的存储管理模式,允许根据需要可以选择不同的存储模式,但基于文档的XML数据存储已经不能满足复杂的应用,而采用关系型数据库实现对XML数据的存储管理,在一些操作中的效率不能令人满意。根本原因是逻辑结构上,XML数据的树型结构比“平坦”关系型数据结构复杂,因此为提高XML数据管理的效率,在NXD中引入采用原生的存储模式来管理XML数据。  为了建立完善的基于原生存储模式的XML数据存储系统,需要深入分析XML数据特点和存储需求,针对存储结构和索引结构,以及内存、外存中的管理模式这些关键问题进行研究并提出解决方案。  首先是基于模式的XML文档存储问题,为此引入基于树型分解的存储结构,及相应的文档操作算法。主要思想是通过分解XSD/DTD(XML模式文档)和XML文档,建立文档结构树和叶子数据分别以层次模式和关系模式存储,为解决XML数据跨块存储和保证块内存储完整子树的问题引入代理结点,并进一步利用XSD模式分解信息,对XML文档建立稀疏索引,节省存储空间。  第二是XML数据的索引问题。数据访问效率很大程度上依赖于索引的效率,XML数据的索引针对其特殊的“树”型结构,包括值索引和路径索引两类。对于XML数据的值索引采用B-H(平衡—HASH)算法实现,对于路径索引,则通过XML数据结构中的区间编码实现。  第三是XML数据结点的路径和顺序操作问题,这是提高XML数据操作效率的关键问题之一,通过引入一种基于位运算的区间编码,可以快速有效的判断路径关系。并以此为基础,提出基于编码的结点保序方案。进而通过深入分析影响编码冲突率的因素及它们之间的关系,进一步完善XML数据结点的编码存储结构和操作算法。  第四是XML模式数据的管理问题。基于模式的XML数据,其查询操作大部分从模式数据的操作开始,XML Schema数据是XML数据的模式数据、元数据,因此针对XML Schema模式文档数据建立优化的存储结构和解析算法,可以提高其解析效率,进而利用XSD数据的优化存储结构提高XML文档数据的模式验证效率,提高XML数据操作的效率。  通过优化XML数据的存储模式,存储结构、索引结构、路径表达以及其模式数据XSD的存储和解析,以此基础上设计基于原生存储的NXD系统,对XML应用系统提供良好的底层数据存储管理和高效的访问接口,更好地为XML大规模、复杂的应用提供有效的支持。
其他文献
该文对I960的体系结构以及其仿真模型设计技术进行了系统的研究,同时还研究了高性能微处理器的流水线技术.研究内容包括流水线的性能、组织、相关等关键技术问题.在研究的基
该文以全球定位系统(GPS:Global Positioning System)为背景,研究了利用一颗或两颗导航星的信息来加快低轨用户星进入精密定思所需的初轨算法,以及利用Kalman滤波进行精密定
多媒体会议系统作为高层次的协同工作工具,它随着今天的网络技术、多媒体技术、计算机技术的高速发展,社会对信息的更深层次的需求,在今后的社会生产和生活中起着越来越重要
该文结合链钢CIMS工程中能源管理子系统的设计和开发,介绍了CIMS的发展、构成及设计方法;分析了CIMS环境下数据库管理系统和网格拓扑结构的选择和布设,对数据库的分布式透明
从海量的实时产生的电子文本中找到所需要的与特定领域相关的文本,是该课题要解决的问题.国外有些学者提出了一些基本统计计算进行文本过滤的模型,国内尚无成果问世.但是仅用
计算机与网络系统的安全性分析工作是保障网络安全的一个重要环节,在不同的阶段对计算机与网络进行安全方面的分析,主动发现其中存在的安全隐患,能够起到未雨绸缪的作用。现有的
工作流程就是通过流程控管的作业方式,使企业工作过程中的每一个环节达到有序状态的一种企业管理方法.一个好的工作流程,可以使企业中的各种工作,依照正确的顺序去执行,以此
该论文的主要工作是对基于ORB的交易服务设计和实现的核心:应用程序、资源服务器、交易管理进行了探讨.并根据CORBA交易服务规范开发了基于ORB的交易服务系统:TongOTS.
该课题用一片FPGA芯片实现了RS(255,223)编码器的功能,其中的参数选取及编码方法完全符合CCSDS关于遥测信道编码中的Reed Solomon编码的建议.这种RS码是一种强力的突发差错
该文简要介绍了国内外MIS系统的历史、现状和发展以及国内电国行业MIS系统的现状和发展展望,系统地阐述了MIS系统的定义、结构和功能以及开发原则、开发方法和开发平台,同时