论文部分内容阅读
XML(eXtensible Markup Language,可扩展标记语言)为网络传输提供了一种便捷有效的数据格式,它是一种自描述的标记语言,能提供统一的数据说明方式,可以描述任意数据逻辑关系。XML很快成为了Internet上数据表示、集成和交换的标准,同时也促进了下一代网络的发展。如今,互联网上急剧膨胀的XML数据带来了一个全新的研究领域——XML数据管理。而借助关系数据库来管理XML数据是其中一个热门研究方向,这种方法可以利用关系数据库成熟的技术,例如内存管理、查询服务、并发控制、数据恢复、访问控制及安全性等。然而具有层次和嵌套的XML数据模型比二维平面式的关系模型复杂得多,要使用关系数据库无损地存储和管理XML数据是一项十分困难的任务。论文的目的是设计并实现一种通用的基于关系数据库的XML数据管理系统,使之能有效应用于电子商务等领域。使用关系数据库管理XML的方法一般需要完成三个步骤,论文分别针对这三个阶段作了一系列工作:(1)模式映射——利用XML模式信息生成关系模式以存储遵从该模式定义的所有XML文档。论文首先提出一种改进的共享内联技术,它增加了DTD简化规则,并定义新的DTD图模型和内联DTD图模型。基于这些模型,模式映射算法DTD2RSchema将DTD转换成对应的关系模式和σ映射。(2)文档映射——将XML文档存储到关系数据库中。为表示XML文档,首先定义一种XML树模型,文档映射算法SAXDocMap自顶向下遍历XML树为每一个结点编码,同时利用σ映射将结点信息映射到关系元组中。(3)查询映射——将XML查询转换为关系查询,并在需要时将关系查询结果重构成XML子树。在路径匹配阶段,定义一种断环DTD图来管理DTD中存在的递归环路,利用这种断环DTD图,路径匹配算法PathMatching可有效地找出递归查询的所有匹配路径;在查询转换阶段,转换算法Convert2SQL以匹配路径为输入并生成等价的SQL查询;在XML重构阶段,首先通过算法SESGen生成结构编码序列,再由重构算法ReconXML将结构编码序列还原成XML文档。所有算法都已在XML存取原型系统X2R中实现。论文最后以MySQL作为后台数据库从不同角度对X2R进行测试和验证。实验证明,X2R能够无损地存储XML数据,且具有良好的可扩展性和高效的查询性能。