论文部分内容阅读
XML是Internet上最优秀的数据交换格式之一。近年来,学术界和工业界对XML数据处理投入了很大的热情。为了有效地组织和管理XML数据,研究人员提出了不同的解决办法。其中,人们较多地采用关系数据库或者文件系统来管理XML数据。随着Web服务的发展,越来越多的远端Web服务也开始提供XML数据。所以,在应用中存在着多种XML数据源。 虽然学术界已经在XML数据的查询处理和转换方面取得了不少研究成果,但是仍然存在着许多有待研究与解决的问题。本文探讨不同XML数据源的查询、转换和集成的问题,包括关系数据库中的XML查询处理,特别是通过创建路径索引来优化查询执行;结果类型保证的XML文档的查询和转换;无需中间结果缓存的XML数据转换;集成多个Web服务返回的XML数据等。本文的主要贡献如下: ·研究了关系数据库中的XML数据的查询优化技术。提出了一个代价模型,该模型考虑到了源XML数据的统计信息和具体应用的特点,可以较好地估计索引的空间占用量和它们对查询性能的改善程度;采用贪心算法来选择性地创建一部分较好的映射索引;实验表明,相对于没有创建索引的情况,选择创建的索引仅仅额外占用了有限的的磁盘空间,但是它们对查询性能的改善是非常明显的。 ·研究了文件系统中的XML文件的查询处理技术。利用XML查询扩充属性文法,构造出一种新的XML查询语言XTG。采用XTG语言,能够从一定程度上保证结果文档的正确性,即,它们必定符合预先规定的DTD结构。提出了XTG查询的概念执行计划,并且讨论了几种优化策略,比如图规约技术等。实验结果表明这些优化策略是有效的。 ·提出了XML转换语言G2ST,它可以将GML文档转换得到SVG文档。G2ST也是属性文法的扩展,其中的语义计算规则是XSLT模板。采用G2ST语言不仅可以减轻用户创建有效转换时的负担,而且保证转换结果是有效的SVG文档。实验证实G2ST是一种转换GML数据的有效方法。