论文部分内容阅读
作为一种标准的通用标记语言,XML(eXtensible Markup Language)的半结构化特性、良好的可扩展性和自描述等特性使它已经成为了互联网上数据组织、表示和交换事实上的标准。而随着网络应用如Web服务、发布/订阅、个性化内容传递等的蓬勃发展,越来越多的信息和数据以XML的格式来编码与组织,并通过网络发布和交换,形成了一种新的数据处理模型—流计算模型。二者的结合带来两个基本问题:最优选择查询和多数据源之间的连接查询,导致迫切需要与之相适应的、能灵活高效地处理XML数据流上的查询处理技术。本文围绕XML数据流的查询处理问题展开研究工作,在深入探讨目前XML数据流上查询处理研究成果的基础上,本着丰富XML数据流上的查询体系这一宗旨,实现XML数据流上查询处理灵活高效这一目的,选取XML单数据流上的Top-k查询和多数据流上连接查询进行了讨论和研究,提出了新的处理及优化方法,并通过实验验证了所提出方法的有效性和高效性。论文的主要贡献可以总结为如下几点:1)提出一种在XML数据流上实现窗口查询简单可行的方法。与现有的少量研究工作相比,更好地兼顾了查询语言的表达能力和可行性两个方面,定义了窗口查询的简单语法,系统描述了在XML数据流上实现窗口查询的机制与方法。2)提出一种处理XML数据流上Top-k查询的方法。将XML数据的相似性计算融入到数据的单遍扫描过程中,利用堆栈和优先队列等技术保证查询的高速处理,同时通过渐进结果生成的方法来尽快输出结果,提高结果反馈速度。3)为了处理数据流的潜在无限性,提出一种XML数据流上基于窗口的Top-k查询处理模型,分析显示在一个非常小的错误概率允许范围内,结果输出所需空间较小,并且不依赖于XML数据流的速率。4)提出一种处理XML多数据流连接查询优化的方法。以管道作业和类似路由器的处理方式保证查询的高速处理,并支持渐进的结果输出,针对不同环境影响因素均具有较高的优化效率。综上所述,本文就XML数据流上的查询处理技术进行了深入的探讨和研究,提出了新的不同于已有的技术和方法,并通过实验对其有效性进行了验证。本文的研究工作,对于XML查询处理技术的发展,具有一定的理论意义与应用价值。