论文部分内容阅读
随着XML成为Web上的数据表示和数据交换的标准,需要通过Web交换和处理的XML数据在大幅度的增加,这就对XML数据库的模式提出了更高的要求。同关系数据库类似,如果XML数据模式设计的不好,同样会引起插入、删除和更新等异常。由于Web的开放性,XML数据异常的危害性要远远大于关系数据异常的危害性。虽然XML数据的相关技术研究已有些成果,例如,XML数据的存储与发布技术、XML数据查询与优化技术等,特别是与关系数据的转换技术已相当成熟。但是,XML数据已经成为Internet上的主流数据,如果仅仅考虑到如何从XML文档数据转换到关系数据,且这种转换只是保持了结构信息,而没有从数据库设计的角度来评价XML数据库模式,这也必将对以后的Web数据处理带来很大的麻烦,势必造成数据的大量冗余和不一致现象。本文从数据库设计的角度出发,对XML数据的约束进行深入的研究,直接对Web数据进行规范化处理,从而得到良好的XML数据库模式,这样不仅完整地保留了XML文档数据中的语义和结构信息,满足了数据库设计的要求,一次性地完成了XML数据库的设计,避免了现有方法的重复设计,而且减少了数据冗余,保持了Web上数据的一致性。因此,XML数据库模式规范化的研究具有重要的理论意义和实用价值。 本文的主要工作是在已有的DTD和XML-Schema等规范基础上,采用路径表达式和树元组的表示方法对XML数据进行规范化研究,主要研究成果如下: (1) 对XML函数依赖约束进一步研究,基于路径表达式和树元组给出XML函数依赖、部分函数依赖和传递函数依赖的概念,定义了XML函数依赖的逻辑蕴涵与覆盖,给出了XML函数依赖推理规则,证明了其有效性和完备性,并提出了多项式时间求解规范覆盖和最小覆盖的算法。 (2) 基于XML函数依赖形式化定义,给出XML不同级别范式的定义,提出XML文档规范化规则——元素提升规则和元素创建规则。在规范化基础上给出XML文档规范化算法,并实验证明了算法的有效性。 (3) 给出XML键约束的完整定义以及绝对键和相对键的推理规则,提出多项式时间求解XML候选键的算法,并对算法的正确性、可终止性和时间复杂性进行了分析和证明。 (4) 给出XML多值依赖的定义,提出XML多值依赖推理规则,并证明了其有效性和完备性。在XML多值依赖逻辑蕴涵和覆盖定义基础上,提出多项式时间求解XML多值依赖无冗余覆盖算法。复旦大学博士学位论文摘要(5)关键词: 给出规范化XML文档相似性度量方法—集合度量方法、线性度量方 法和代价度量方法。并提出基于权重代价的机器学习的相似性度量算 法。实验证明该算法扩展了XML文档查询范围,提高了文档的查全率 和查准率。