论文部分内容阅读
随着Internet的快速发展,XML已经成为Web数据表示和交换的事实上标准,越来越多的信息处理系统采用XML文档作为信息存储,交换和发布的载体,XML类型的数据已成为当前主流的数据形式。而怎样对这些海量的数据进行管理已经成为了刻不容缓的问题。在管理这些海量数据时,为他们建立索引是一个必然的选择。建立索引的一个直接方法是对文档树中的节点进行编码。目前已经有很多种针对XML进行编码的方案,但这些方案对XML数据的插入支持都不是很好。
本文针对的就是现有XML索引编码技术的不足,力求解决XML索引编码在插入XML数据时的重新编码问题。为有效解决问题,在对XML编码技术的基础上进行深入研究,结合XML编码方案需要面对的主要问题提出了一种插入友好的编码技术。
本文首先对已有的编码方案进行了归纳总结,对XML编码索引方案面对的主要任务做了阐述。归结出已有的编码方案之所以对XML数据插入不友好的原因,并在分析了数据模型的情况下提出了一种结合了局部编码思想和全局编码思想的编码方案。同时为提高编码在进行各种操作时的效率,在数据结构的设计上参考借鉴了段式内存管理中的内存地址的编码思想。从而对解决XML索引编码的XML数据写操作提供了一种较新颖的解决思路。