论文部分内容阅读
随着Internet技术的发展,Web上各种在线信息源不断涌现,这些信息源种类繁多,结构各异。在互联网这样一个动态的环境中,各信息源不断地发生着变化,在这样一个动态、异构、开放的环境下快速、准确地获取信息是十分困难的。因此,研究信息集成系统,为用户提供一个访问异构数据源的统一接口有着非常重要的意义。在这种背景下,本文对信息集成系统的主要技术进行了深入的研究,具体研究工作如下: 信息集成系统体系结构是研究系统的组成模块以及各模块之间关系的。本文对目前几种典型的信息集成系统体系结构进行了分析,总结了这些体系结构的优点和不足。在对实际的信息集成工作中遇到的问题及其他相关需求进行分析的基础上,提出了综合信息集成系统体系结构。该体系结构既考虑对已有投资的保护,又考虑对不断生成的新数据的有效处理;既考虑对传统数据库中的数据和XML数据的处理,又考虑信息检索和辅助决策的需求。是一个面向目前大多数企业的综合信息集成系统。 模式映射的建立是信息集成系统的重要环节之一。本文提出了基于划分的映射模式发现框架——PBMSDF(Partition Based Mapping Schema Discovery Framework)。Dhamankar等提出了iMAP框架,该框架采用搜索器集合和Beam Search的方法,可以自动发现1:1映射、1:n和n:1的复杂映射,但是存在以下不足:一是不能发现m:n的复杂映射;二是该框架需要对属性及属性值实例进行分析,导致系统开销很大;三是对于Web信息集成,获取属性值的数据实例有时是不可能的,因此该框架不能用于Web信息集成。He等提出了DCM(Dual Correlation Mining)框架,该框架采用对属性在模式中的分布进行分析发现属性之间相关度的方法来发现属性之间的映射关系,可以解决iMAP框架中存在的问题,仍存在以下不足:一是由于该框架采用的相关度衡量标准对部分属性的评价结果不准确,导致发现结果准确性不高;二是该框架中采用的AprioriCorrmining和DualCorrelationmining挖掘算法在由相关e项集生成相关e+1项集的过程中,将整个属性集合中的每一个属性添加到相关e项集中构成候选相关e+1项集,然后再判断该e+1项集是否相关,增加了许多不必要的计算,致使搜索空间过大,算法的效率较低。本文提出了比较适合于衡量属性之间相关度的C-衡量标准,并在PBMSDF框架中采用了该标准以提高发现结果的准确度;提出了基于划分和栈的模式映射发现算法,理论分析和实验结果均证明,该框架较iMAP和DCM具有较高的性能和较好的模式发现能力。 XML成为目前Web上数据表示和信息交换的标准,处理XML数据是集成系统的功能之一,XML查询的效率将直接影响集成系统的性能。本文提出了一种基于递归模