论文部分内容阅读
可扩展标记语言XML技术自出现以来,在许多领域内得到广泛的支持并有着广阔的应用前景。XML的核心作用体现于数据的交换与共享,利用XML的样式语言来实现数据间的转换和显示,可以满足用户的多种需求。但是XML的诸多优势并没有表现在存储上,如何更为有效地存储和管理XML数据已成为一个研究热点。本文说明了XML与数据库的结合是大势所趋,提出了一个XML数据到关系数据库的转换框架,这个转换框架的主要设计思想分为两个部分,一个是从Schema到数据库的映射技术,将XML数据存储到关系数据库,另一个是XML的数据查询。本文针对此框架工作流程中的前三个步骤展开研究。首先是DTD到Schema的转换方法的研究。第一步使用设计好的DTD到Schema转换表将DTD转换为Schema。第二步运用元素抽取算法,提取可选元素、复杂元素、多值元素和组元素等产生新的类型,将原始Schema转换成为D Schema,从而建立Schema树。然后是对XML文档至关系模式映射算法的研究。本文在研究前人的理论成果的基础上,针对一种生成数据表多、占据存储空间大的映射算法,提出了这种映射算法的改进算法:使用Schema树将复杂元素转换为数据表,通过父亲儿子节点之间的联系设置每个表之间的主外键,保留了Schema各元素之间的关系,将Schema映射为关系表,减少了生成数据表所占的存储空间。本文又提出了另外的一种算法:建立Schema树,同时将这棵树上的每个节点赋予五个属性,然后对这棵树进行深度优先搜索将该树的节点存入一个关系表中,这种方式将Schema各元素还有各元素之间的关系直接存入数据库,最后通过深度优先搜索将XML文档的数据存入数据库。这个过程只需生成两张表,相比第一种算法生成的数据表所占存储空间更小。最后介绍了利用JAVA语言工具对XML文档解析和将数据写入数据库中的技术。在实例验证阶段,采用XML Schema描述的XML水质信息作为数据源,选用SQL Server2000关系数据库来实现存储,实验表明能够利用关系数据库的优势,有效地实现关系模式下的水质信息的存储。在本文的最后,针对基于XML数据存储存在的一些问题,提出今后进一步的工作。