论文部分内容阅读
可扩展标识语言XML(eXtensible Markup Language)已成为Internet上信息表示和数据交换的标准,在网络服务、电子商务、电子数据交换、科学数据表示、数据建模与分析、智能体和搜索引擎等领域得到了广泛的应用,XML技术也日益受到更广泛的关注,XML数据库的管理技术也不断得到成熟和完善。现实客观世界中常常存在大量不完全信息,能够表示和处理不完全信息的数据库更具有现实应用意义和价值。为了更好地描述现实客观世界,XML文档应该允许出现不完全信息,然而XML文档引入不完全信息后,需要重新定义XML文档的数据约束,也就是说不完全信息环境下的XML数据库规范化理论不能直接应用完全信息环境下的XML数据库的相应理论解决问题。规范化理论是数据库领域研究的一个核心问题,同样地,它对不完全信息环境下XML数据库避免更新异常、保证数据的一致性、减少存储空间以及查询优化等方面具有重要的意义。但是,目前还没有关于不完全信息环境下XML数据库规范化理论的完善理论文献,本文将对不完全信息环境下的XML数据库规范化理论进行系统深入的研究。基于路径和XML Schema对不完全信息环境下的XML数据库规范化理论进行了研究,本文的主要贡献和创新概括如下:1、XML强函数依赖推理规则的研究。给出了XML强函数依赖的定义;研究了XML强函数依赖的性质;提出了XML强函数依赖的推理规则集,并对推理规则集的有效性和完备性进行了证明。2、XML强闭包依赖范式的研究。给出了XML强闭包依赖的定义和性质,在提出XML强闭包依赖推理规则集的基础上,对其有效性和完备性进行了证明。给出了XML强函数依赖和XML强闭包依赖互不影响的定义;提出了XML强函数依赖和非循环XML强闭包依赖互不影响的判定定理, XML强闭包依赖范式以及相应的判定定理;提出了将XML数据库模式转化为XML强闭包依赖范式的规范化算法。3、存在XML强多值依赖的XML文档规范化的研究。给出了左右部为单个路径的XML强多值依赖的定义;基于层次化的XML强多值依赖,提出了不完全XML文档树满足XML强多值依赖范式的条件;提出了满足该条件的不完全XML文档树无数据冗余的判定定理;提出了不完全XML文档树的规范化算法。4、存在XML强函数依赖的XML Schema规范化研究。给出了XML Schema、符合XML Schema的不完全XML文档树等概念,提出了XML强函数依赖的定义和相应的推理规则集,路径集强闭包和XML强函数依赖的成员籍问题的算法。给出了XML强函数依赖范式的定义,提出了转换XML Schema为XML强函数依赖范式的规范化算法。5、存在XML强多值依赖的XML Schema规范化研究。基于XML Schema给出了左右部为路径集合的XML强多值依赖的定义及性质;提出了XML强多值依赖的推理规则集,并对其正确性和完备性进行了证明。给出了弱键路径和XML强多值依赖弱范式的定义,通过实例分析了在XML Schema中XML强多值依赖引起数据冗余的原因,提出了转换规则,给出了规范化算法。本文的研究是直接对Web世界中的不完全XML文档以及模式进行规范化,从而得到规范化的不完全XML文档以及模式。存储、集成、发布、传输和交换规范化的不完全XML数据,避免了更新异常,保证了数据在互联网上的一致性,提高了数据质量,在存储效率、索引设计和查询优化等方面具有重要的实用价值。