论文部分内容阅读
随着各种企业级系统的快速发展和异构框架的不断丰富,将各种异构系统进行的集成就成为当前数据库领域的一个热点问题。要实现系统集成就首先进行数据集成,而基于本体的数据集成在各种数据集成方法中脱颖而出,成为目前数据集成领域中的重要研究点。一般情况下,由于数据源的异构性和多样性,数据集成中会存在各种各样的冲突,比如常见的命名冲突,单位冲突,顺序冲突等等,所以必须首先发现冲突,然后按照人工的或者自动的冲突消除规则对冲突进行处理。鉴于上述考虑,本文利用本体的语义性,提出了一个基于模式映射的数据集成模型,该模型构建于映射规则(Rule-based),并且能够自动发现和消除特定的冲突(Conflict-solved),所以将其命名为RCM。本文首先对RCM进行建模,该模型包含了局部概念集、全局概念集、映射集、冲突集和约束集,其中后三者是该模型的核心。我们用映射文档的形式来对后三者进行描述,然后在此基础上提出了一个冲突发现和消除的算法,最后阐述了RCM框架的实现。在数据源描述方面,每个局部数据源由它自己的本体来描述语义。但是为了使每个源本体之间能够相互比较,在最上层建了一个共享的词汇集,共享的词汇集包含了领域内基本的术语,即构建了一个代表全局数据源的本体,这样就涵盖了RCM模型中的局部概念集和全局概念集。在此基础上,用OWL自定义的映射文档对局部数据源与全局数据源之间的映射关系进行描述,从而将RCM中的映射集、冲突集和约束集的信息记录到映射文档中。本文研究了基于板映射模型的冲突消除算法和常用的查询重写算法,分析了它们的部分不足之处,提出了适合在RCM上进行冲突发现和消除的算法。在映射文档中自动发现冲突并判断冲突发生的子数据源及对应的属性,并同时在映射文档中进行修改。在查询重写的过程中,将借助该映射文档来消除以单位冲突和格式冲突为代表的数据冲突和以命名冲突为代表的语义冲突,从而保证查询结果的正确性。本文最后介绍了由RCM延伸出来的框架,具体包括用户接口、查询处理、文档处理和结果提取四大部分,结合GLAV、本体等技术的各自优势,提出了各部分可行的实现方式。