论文部分内容阅读
随着XML在互联网和信息处理等领域的广泛应用,它已经成为当今数据交换和数据表示的事实标准。为了有效管理和快速查询海量的XML数据,进而改进XML数据库系统的性能,各种XML数据处理的优化方法也应运而生。在众多的优化方法中,物化视图技术作为一种有效的优化手段被多种XML数据库或处理引擎所广泛使用。所谓物化视图,就是先对一些复杂或者常用的XML查询进行计算,并把相应的计算结果保存在系统中,当再有满足应答条件的查询时,就可以直接根据物化视图给出结果,而无需再对原数据库进行查询,从而大大提高了查询系统的性能,因此,对于XML物化视图的研究也成为当前XML数据处理研究的一个热点。XML物化视图技术主要包括视图选择、视图存储和视图更新等方面的内容。由于XML数据树形结构的特点,以往的物化视图都是将查询结果元素所包含的整个XML片段一并保存。而这些物化视图占用了系统大量的存储空间。因此越来越不适应当前流行的嵌入式移动数据库、Web浏览器等功能受限环境和XML数据集成系统等应用环境。为了解决上述存储瓶颈问题,一种有效的技术是替换掉那些不常用的视图,为此研究人员提出了许多视图替换算法。这种方法是以牺牲物化视图的数量为代价,很大程度上降低了在系统中找到可以应答视图的可能性。
为了解决受限计算环境下XML物化视图存储瓶颈的问题,本文从减少物化视图数据量的角度提出一种新型XML物化视图的概念,即延迟XML物化视图,利用XML数据半结构化的特征,在视图中只保存节点的引用信息,从而能有效地减少视图存储空间,提高系统的效率。为延迟XML物化视图的实现,设计并实现了查询包含检测算法,扩展了XQuery语言及其引擎系统。设计并实现了一个支持B/S架构的延迟物化视图系统,为数据密集型Web应用程序提供了XML数据处理工具。通过实验表明,XML延迟物化视图技术可以支持网络环境下XML数据处理性能的提高和网络带宽限制的缓解,有效地解决了受限计算环境下XML物化视图存储瓶颈的问题。