论文部分内容阅读
随着计算机系统性能的不断提高、存储数据量急剧增加以及信息越来越复杂,用户如何高效组织和管理信息成为信息技术的重要课题。文件系统作为操作系统中存储和管理信息的主要构件,在面对海量的复杂的结构化与半结构化信息时暴露出了缺陷。
另一方面,随着计算机网络和硬件的迅速发展,计算机之间的数据交换越来越频繁,需要统一的标准来规范数据的传输和交换。在这种背景下出现了可扩展标志性语言XML,它具有良好的自描述和跨平台性,因此大量的信息以XML的形式出现。
为了对XML文档进行有效的管理,有必要将XML文档存储到数据库中,存储机制已成为XML数据管理领域研究的一个重要课题。
由于将XML文档映射为关系表,存储到传统的RDBMS中,会破坏XML数据的树形结构,造成查询效率下降。所以研究一种以某种自然的方式来存放XML数据的存储系统是十分有意义的。
近几年,专门存放XML信息的数据库已经逐渐出现,但是对关系数据库而言,XML数据库技术还不是那么成熟,还有很多缺陷。
本文通过存储系统的分析,针对这些缺陷,提出了一种新的用于纯XML数据库的存储方案。并且在此存储方案的基础上实现了简单的查询功能。
该方案基于索引结构将XML节点作为记录直接存储到分页文件中,建立起持久化文档对象模型,从而保持了XML数据原有的树形结构。利用符号表和压缩技术,这样不仅降低了XML文档的存储空间开销,而且实现了XML节点的快速串行化输出和访问操作。
作为通用的纯XML存储方案,它支持各种二级索引的创建,以提高XML查询处理的效率。在存储空间、存储时间、串行化和节点访问时间等方面和已由的XML存储系统相比,它是一种高性能的纯XML数据库存储方案。