论文部分内容阅读
XML(可标记扩展语言)数据具有半结构化、自描述性等特点,相对于关系数据来说,XML数据具有更大的灵活性和可扩展性。如今,XML已经成为互联网上数据表达和信息交换的标准。同时,XML数据的应用领域在不断增多,XML数据的规模也随之变得越来越庞大。XML数据规模的增长也为XML数据的有效管理和高效查询带来了巨大的挑战。
目前,提高XML数据查询效率的方法主要有:一、优化XML数据的存储形式和索引机制;二、优化XML数据的查询。XML数据的查询优化曾一度是数据库领域的研究热点,和关系数据的查询优化相同的是XML数据的查询优化也包括逻辑查询优化和物理查询优化两类。XML逻辑查询优化往往会生成多种逻辑查询计划,而如何选择逻辑查询计划并确定不同查询片段的执行顺序,是XML物理查询优化要解决的主要问题。XML物理查询优化的核心思路是通过抽样或者构建概要模型的方式获取统计信息,进行查询代价评估,进而生成物理查询计划。
本文在深入分析研究国内外相关工作的基础上,设计并实现了一种支持XML查询代价估计的概要信息树:基于Schema的XML概要信息树,简称XSS(XML Schema based XML Synopsis Tree)。本文的主要贡献:
1、通过分析XML Schema提出了XML子树同构的概念和XML子树异构的概念。
2、基于XML子树同构和XML子树异构的概念,定义了一种基于Schema的XML概要信息树(XSS)。
3、给出XSS树的构造算法、XSS统计信息的获取算法,XSS统计信息的更新算法和基于XSS的查询代价估计方法。
4、实现了基于Schema的XML概要信息树(XSS)。
5、用真实数据及合成数据测试了基于Schema的XML概要信息树(XSS)的时间效率,并验证了其准确性和有效性。