论文部分内容阅读
数据集成是数据库领域中的研究热点之一,集成的目的是屏蔽模型差异,给用户提供一个统一的视图。通常集成的数据包括结构化数据、半结构化数据和非结构化数据,这些数据以不同的模式表示。
为不同数据源的共享、集成统一平台,可用于对更高级、更复杂的系统进行模型化,本文提出了异构数据源的查询模型,为查询方法和原型系统设计提供了依据。它能够方便地表示结构化数据和半结构化数据,实现异构数据源的统一表示和统一查询。论文就模型中涉及的主要查询方法三方面的问题,开展了较深入的研究,并提出了相应的解决方案和方法。
考虑到多XML文档的查询,本文提出了一个有效的基于语义的多XML文档查询方法-SMXQA(SemanticsbasedMulti-XMLQueryAlgorithm)。方法的设计充分借鉴了已有的XML代数和查询语言的优点,并针对多XML文档引发的新问题进行了设计,提出了基于Xquery的多XML文档查询语言MXquery,并在此基础上生成多XML文档查询计划和查询结果。
为解决异构数据源查询中XML与关系数据之间的查询问题,本文设计了相应的查询方法。该方法通过XML模式映射在关系数据库中建立XML文档的模式,通过将XML文件数据导入到关系数据库中,从而通过关系查询来检索XML与关系数据。
针对异构数据源XML查询中速度慢,效率低的问题,本文提出基于XPath路径表达式的优化方法。该方法一方面在XML存储方案基础上生成最优的查询计划,另一方面充分利用XML文档树的特点,并结合相关的XMLSchema,减少搜索范围,最后充分考虑FLWOR表达式的语义特点来尽可能的减少不必要的变量绑定,重复寻址等计算过程,最终达到优化的目的。
论文最后实现了一个异构数据源查询系统——HDSQS,在此基础上检验了所提出的模型和方法。通过多次实验分析得出,研究的方法有效解决了存在的问题。而且在食品卫生标准数据中心项目中得到了很好的应用。