论文部分内容阅读
随着信息技术的高速发展,不同企业在实际应用中都产生了大量的数据,这些数据通常以关系数据库形式存储,并维护于各自的信息系统当中。随着信息共享需求的日益加强,企业内部或企业之间通常需要对已有数据进行交换,进而挖掘出有利于商业智能的信息。然而,在数据集成过程中,人们发现即使对于同一应用领域,其数据库模式的设计也往往存在较大差异,这种异构性严重阻碍了数据间的互操作性。目前,该问题的主要解决方式是由系统设计者或DBA手动建立两个模式元素间的对应关系,并在此基础上实现异构数据间的集成,然而该操作却需要花费大量的人力和物力,且容易出现较多错误。此外,随着数据库应用领域的不断扩展,异构数据源的数量呈指数级增长,数据库中可能包含数百张表、上千个属性,显然单纯的手工匹配方式已不能满足应用的需求。近年来,一些半自动/自动化的模式匹配方法被提出,这些方法利用模式信息、数据实例信息和元素间的结构信息对匹配关系进行推理,进而实现元素对应关系的自动发现。相对来说,基于模式信息的匹配方法相对简单,信息获取也较容易,因此早期的模式匹配方法主要集中于该类信息的使用,但由于其信息量有限,故在应用上具有一定的局限性。随后人们开始致力于数据实例信息或结构信息的使用,并希望从中挖掘出更有价值的信息,进而增强匹配关系的发现。总体来看,基于上述信息的模式匹配方法虽然在某种程度上缓解了异构数据集成所带给人们的压力,但仍存在些许不足:首先,匹配操作过于追求自动化,其内在固有的不确定性导致匹配结果需要花费大量人力去验证;其次,为了便于记忆,越来越多的企业将模式或模式所含元素以中文方式命名,致使已有传统的模式匹配方法适用性不高,进一步增加了匹配的难度;再次,以往匹配方法较多关注于模式信息的运用,而较少考虑数据实例或数据实例所反映出的其他信息,该类信息对于匹配操作来说同样具有参考价值;最后,不同匹配方法的适用性有所不同,在缺少专业知识的情况下,用户无法做出合理判断,导致匹配方法选择不当使得匹配结果可用性不高。为此,结合已有的模式匹配算法,本文针对关系数据库中的模式匹配方法开展了以下几个方面的研究工作:1)研究匹配过程中专家知识的有效引入。在执行整体匹配之前,首先基于元素名称确定待匹配模式元素间的初步对应关系,并选取少量关系交由用户验证,以此推理出当前任务下已知的匹配、不匹配关系和不同匹配器的适用性;然后基于上述分析所收集到的先验知识对匹配器进行选取,并指导单独匹配器所得结果的合并、调整及优化;最后对优化结果的选择性进行评估,从而为当前匹配任务推荐最为合理的候选匹配生成方案。2)研究中文环境下的模式冲突问题。对缺少数据实例信息或仅能获取元素中文描述信息的待匹配模式,首先提取数据字典中有关元素的中文描述信息,利用中文信息处理技术将其转化为词条向量的形式,并采用聚类分析技术将特征相似的关系划分到相同聚簇中,进而缩小匹配执行范围,提高整体匹配效率;对于同一聚簇中的不同关系,借助辅助词典中词语的组织方式计算元素间的中文语义相似度,并采用多种选择策略相结合的方法对匹配结果进行过滤。3)研究面向数据的模式匹配解决方案。在模式信息不可用或不充足的情况下,该方法利用相似数据检测算法标识出待匹配模式数据实例间的相似元组,并以此生成元素间的初始相似度;此外,对于关系中的每个元素,该方法利用数据实例所蕴含的元素内在联系提取与每个元素相关联的强关联关系元素集合,并由集合中元素的相似性反映出待匹配元素的关联相似度;最后由数据实例相似度及关联相似度综合决定元素间的整体相似度。4)研究自适应模式匹配流程的构建方法。对于一个给定的模式匹配任务,该方法通过用户交互与自动抽取相结合的方式对输入模式信息进行深入挖掘,从中提取切实可用的辅助匹配信息及该信息所适用的模式匹配算法,然后在此基础上自适应构建和调整模式匹配流程,使匹配方法能够随应用场景的变化而变化,进一步增强模式匹配方法的适用性,充分发挥不同匹配算法所具有的优势。