论文部分内容阅读
近几十年来,随着科学技术的迅猛发展和信息化的推进,人类社会所积累的数据量已经超过了过去5000年的总和,数据的采集、存储、处理和传播的数量也与日俱增。企业为了实现数据共享,减少资料收集、数据采集等重复劳动和相应费用,必须首先进行数据集成。企业异构数据集成技术是将企业分布的、异构的独立信息源中的有用数据集成在一起,使得用户能够以透明的方式访问这些数据源,以供信息检索、分析处理等应用的技术。现有的集成技术主要分为逻辑集成和物理集成两种方式,对于企业中的信息,因为强调从积累的数据中分析挖掘出有商业价值的信息,更适合用物理集成的方式。物理集成过程中最重要的技术是ETL(抽取、转换和装载)技术。当前已有的一些ETL产品主要基于图形化的作业配置形式,嵌入可执行的脚本,缺少灵活的“记忆”、“推荐”等智能支持。本文从本体和规则引擎入手,研究了一套基于知识库的智能的集成方案。论文提出了一种基于知识库的数据集成框架。此框架将数据集成与知识库、规则引擎等智能技术联系起来,突出了“知识”在集成过程中的作用。论文首先给出了基于知识库的集成框架结构,分析了框架的各组成部分和其作用。接着重点研究了知识库的设计,包括语义库、映射库和规则库。提出了一种基于规则库以及历史映射信息的新的模式映射算法,以求实现模式映射的自动化。分析了规则库和规则管理的相关技术,并给出了在数据集成框架中规则引擎、规则管理等规则相关问题的解决方案。最后论文按照设计的集成框架实现了个人信息集成系统,融入了其中的所有研究点,并实现了数据查询和可视化分析功能,取得了良好效果。与已有的数据集成工具相比,论文提出的集成框架的优势在于:引入了知识库,不断积累的知识为集成的智能化提供了基础;语义库消除了集成过程中的难以解决的语义冲突问题;模式映射的半自动化功能节省了时间和人力;提供了灵活的规则配置功能;提供了可视化分析功能。