论文部分内容阅读
随着全球经济的发展,分布式数据库应用日益广泛,许多数据被自然地分布在不同位置上。如,一个公司很可能在世界范围内设有分公司,每个分公司都有自己的数据库。因此,数据仓库技术变得越来越重要。通常,一个企业的信息系统是逐步建立起来的,往往是先建立一些孤立的数据库,而支持这些数据库的计算机系统和DBMS可能互不相同;也就是说,它们是分布的、自治的、甚至是异构的。数据仓库把这些来自分布的、自治的、甚至是异构的数据源信息集成在一起,为决策支持提供单个、一致的数据存储。 通常,数据仓库中存储了大量实体化视图,这些视图中的数据用于领导层进行决策分析。由于数据仓库中的数据大都是从操作数据库中提取出来的,因而,数据仓库中的数据应该定期(如,每周或每月一次)刷新,与数据源中数据保持一致。在维护中,若视图v中的数据来自多个数据源,就会涉及到表的连接。连接操作在数据仓库的维护中占有重要地位,其算法好坏直接影响到视图维护的效率。假设视图中的数据来源于n个表R1,R2,…Rn,由于JOIN操作运算量大,若采用对R1,R2,…Rn重新作JOIN的方法来更新视图V,显然要浪费大量时间,因为重新作JOIN的结果包括实体化视图V。由于我们仅对变化的数据感兴趣,因此可以采用增量的JOIN算法。即,只要将涉及变化数据的JOIN结果追加至视图V中即可。 本文研究视图的增量维护算法,提出一种新的分布连接算法(增量的JOIN算法)。与已有的算法相比,我们的算法易于实现,并具有很好的I/O性能。 本文主要完成以下几个方面的工作: 1 对数据仓库维护中所面临的主要问题进行了深入分析。 2 采用增量视图维护策略,并提出一种新的分布连接算法,对其正确性给出证明。 3 与已有的增量视图维护算法进行分析和对比,新算法具有很好的I/O性能。