论文部分内容阅读
分布式数据环境的信息交换和信息共享,复杂的分析型应用等都要求在前所未有的规模上集成数据。数据集成系统预先把数据从分布自治并可能异质的远程信息源中抽取出来,经过数据转换成为一个全局数据视图存放到本地数据库供用户使用,并负责这些数据视图的更新。数据仓库作为数据集成的一个专门解决方案,美国斯坦福大学的数据库工作小组对此进行了规模最大的原型研究。但是分析他们的体系结构发现,计算逻辑负载的不平衡造成集成器负担过重,信息源的主动性不强,系统的维护开销大等缺点。 由此本课题提出了改进的体系结构设想:在基表上添加一层源视图。改进后信息源端的监视代理能够自行过滤掉无关的基表增量,提高信息反应的主动性;集成器的维护对象从每个数据源上的多基表简化为单源视图,集成计算逻辑得到了简化;整个系统的通信资源也减少了,提高了系统维护效率。 为达到这一目标,本文就基于视图监视代理的集成器开展一系列研究工作,重点是设计集成器的软件结构并进一步实现对多源数据的集成和维护,同时我们对集成器还提出了以下改进:①应具备自动生成最小源视图的能力?即根据实化视图的定义分解出和实化视图变化有关的最小数据集;②提供可定制的集成规则,即管理和维护实化视图的方法和要求,以满足灵活复杂的应用要求。 针对以上要求,相关的研究实现工作包括以下内容:提出了集成器的软件结构,介绍了各个模块的功能;设计了集成规则的库结构,给出了集成规则所包含的属性和意义,实现了管理集成规则的接口,并提供前端工具以方便用户对集成规则的管理;提出了基于源视图的分解算法思想并作了初步推导,但结论还有待改进;对于集成器的核心部件——集成代理,我们给出了软件功能构成,描述了采用的自维护算法,讨论了算法达到的数据一致性程度;最后是和监视代理的接口处理部分,主要讨论了各种通信数据流的数据表示方法。