论文部分内容阅读
在当前的网络信息时代,数据信息不仅庞大而且来自于不同的数据源,信息集成技术是充分利用Web上数据信息的有效手段。我们利用XML这种通用的数据交换工具来作为公共信息的媒介,从各个数据源抽取数据并进行包装以消除多数据源的不一致性,从而达到有效地利用Web上数据信息的目的。 在XML表示的海量数据信息的查询分析方面,用户查询响应时间是非常重要和首要解决的问题,因为查询的效率是衡量数据库技术的一项重要的指标而且也是实际中对数据分析的迫切要求,所以对常用的数据信息建立物化视图是提高对XML数据仓库查询分析效率的一个重要手段。 在基于路径的视图增量维护的方法中,SAWIRES等人对视图的维护给予了分析和讨论并给出了一些好的解决方案。但是在实际的应用中往往要利用基于XML树模型的多个分支的信息,而且会有大量的重复谓词测试和重叠路径,因此要建立多个视图来加快查询响应时间。该文章提出了基于路径的多视图增量保持的一般方法来有效地维护多个视图。对于有重叠路径和重复谓词测试的视图维护工作上,该方法比SAWIRES方法更加有效,主要体现在如下几个方面: 首先,基于路径的多视图的增量保持算法对通过Xpath查询(在某路径下)的结点的谓词测试进行分解,再对分解的测试进行统一的查询和计算,从而省略了大量耗时的重复查询操作,所以在保持效率上要大大高于SAWIRES方法。 其次,该文章的多视图的增量保持方法在视图维护的辅助空间上对于多个有公共路径的视图进行统一的表示,这样在辅助空间上进行了大量的裁剪,所以比使用SAWIRES方法节省了大量的辅助空间。 此外,SAWIRES方法对更新操作限制在叶子结点上,对于实际应用中的任何更新操作都要转化为叶结点的更新操作,会增加转换代价和操作理解的复杂性,而本文的维护方法可以使更新操作在XML文档树的任何结点下进行而不影响视图对维护工作,因此使更新操作表达式更容易理解和使用。 最后,该文章的视图维护方法能够准确快速地反映更新并进行有效地视图维护。多视图的增量保持方法利用视图保持树和更新记录,能够判定更新对哪些视图造成了影响,对更新未影响到的视图忽略对其进行维护操作,对有影响的视图进行更新以保持与数据库的一致性,而SAWIRES方法对更新要测试对每