论文部分内容阅读
在网络日益普及的今天,绝大多数Web数据仍是以HTML文件的方式存储而非数据库方式,由此产生的问题之一是:Web数据无结构,因而无法通过基于结构的精确查询而得到。XML理论及其相关技术正是在这样一种背景下诞生,它为Web数据的表示和结构化提供了理论和技术上的支持。论文基于这一背景,对XML数据的抽象、查询、集成和优化等方面进行了理论和实验探讨,主要研究工作和贡献如下: (1) 本文仿照关系型数据库(RDB)建立了XML数据系统的三层模型:概念层、离散模型层和物理存储层(查询视图集、离散模式集和对象集),以XML格式文档具有一定的模式这一事实为出发点,提出了XML文档集合的离散模式概念,从而建立了在离散模式集上的XML文档对象集合(XML数据库)。这一XML数据库是基于离散XML模式的,是一个基于离散模式的XML数据库系统(DISXDBS)。本文的研究工作就是以许多新的思想和方法来完成和完善上述系统的各部分功能而展开的。 (2) 在定义了相应的逻辑语言后,给出了XML文档树模型的形式化表示,并基于这一数学模式研究了一般查询、树查询和结构型查询,并用逻辑表达式集成了查询结果。这一工作从理论上证明了XML文档结构的可形式化,为基于这一模型的图扩展提供了依据。 (3) 基于上述XML文档结构的抽象和完善XML结构的表示,本文提出了图模式的XML数据组织方案,并进行了XML环境下的基于图匹配的数据查询研究,给出了形式化程度较好的查询表示和查询方法。由于某一离散模式代表整个XML数据库的一部分,基于这一模式概念与XML数据库的数据抽象—扩展的OEM图模型,本文将查询实现表示为模式子图在XML数据库图中的匹配或同态。通过引入CSP变换及求解,完成了图匹配查询和优化的具体实现,给出了一套从离散模式到XML数据库的图匹配转化为CSP问题的具体方法,并对其求解方法进行了研究和