论文部分内容阅读
随着互联网新技术的发展,网络服务和信息交换等应用大规模出现。由于网络数据的异种性和异构性,就急需一套统一的数据表示和数据交换的标准。可扩展标记语言(eXtensible Markup Language,XML)及时解决了这个问题。XML是由万维网协会(World Wide Web Consortium,W3C)制定的用来描述数据信息的一种标准语言。它具有良好的平台无关性和自描述能力,XML逐渐成为网络中表示数据和交换数据的基本格式。近年来,XML数据量指数级的增长,准确、高效地查询。XML数据成为目前的一个研究热点问题。路径是XML数据的一个重要属性,在XML查询优化研究中,关于路径表达式选择性代价估计是一个重要的研究领域,如何根据路径表达式,特别是复杂路径表达式来完善XML查询优化,提高查询效率是XML查询优化的核心问题。
本文在分析比较了现有路径表达式的选择度估算方法的基础上,以树型XML,为数据模型,XPath为查询语言,结合XML数据结构和XPath路径表达式的特点,研究了一种基于XPath路径表达式的选择度估算方法,主要内容包括以下:
1.分析研究了几种典型的以获得和维护XML统计信息的方法为线索的路径表达式选择度估算方法,并对它们之间的性能进行了综合比较。
2.根据XPath路径表达式中谓词所含条件,结合XML数据结构,从结构和条件两方面对XPath路径表达式进行标记,把XPath路径表达式转换为标记路径表达式,并用算法实现了对XPath路径表达式的标记,处理后的表达式比原来的表达式更加简洁,语义清楚,便于存储。
3.根据XPath查询返回的结果大小和XPath路径表达式所对应的标记路径表达式为XML查询处理器构建统计信息表,根据该统计信息表对XML路径表达式进行选择度估算;最后针对DBLP和Xmark两个数据集,进行了实验测试,并与采用路径树(Path Tree)和马尔科夫表(Markov Table)的路径表达式选择度估算方法进行了估算误差的比较,论证了该方法的可行性。