论文部分内容阅读
随着XML逐渐成为Web信息表示与数据交换的标准,需要通过Web来交换和处理XML数据的需求在大幅度增加,因此对XML数据的存储、索引和查询处理研究显得日益重要。另一方面,面向对象的方法具有很强的建模能力,如何将面向对象的特征引入到XML中,以提高XML模式语言的建模能力,以及如何管理面向对象的XML数据是非常重要的研究课题。本文主要的研究成果有以下几点。 (1) 用元素层次、多重继承、重载、阻断、多态性和冲突处理机制扩展XML模式语言DTD,提出了扩展面向对象的特性语义以及检验一个文档实例符合扩展DTD的有效规则; (2) 扩展基于类似复杂对象数据模型的XML查询语言XML-RL的数据模型支持元素层次、多重继承、重载、阻断、多态性和冲突处理机制等面向对象的特征,扩展基于规则的XML查询语言XML-RL支持多态元素、多态引用、包含元素和包含引用。讨论了扩展后的数据模型和查询语言的语法和语义; (3) 针对面向对象的XML数据,设计并实现了两种存储模型:一种是分布式存储,即对象的一个属性或元素,如果是从超类继承的,其属性值或元素值存放在超类对应的对象中;如果是该类新定义的属性或元素,则放在该类对应的对象中。另一种是集中式存储,即对象的所有属性值都存放在它所属类对应的对象中,超类中没有子类实例的数据,只有其直接实例的数据。 (4) 针对面向对象的XML数据,提出一种新的路径仓索引模式,以及基于路径仓的查询处理技术。路径仓是一个为索引XML结构的新颖的两级双向树:组级提供精确的结构概要和类层次信息,而元素级提供详细的孩子父亲连接关系,可以快速存取元素的父亲,高效处理XML查询。路径仓不使用全局标识符而是用基于组的引用,使得值倒排文件入口可以按组聚簇,可以有效处理相应组的值谓词。