论文部分内容阅读
随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。特别是当前Web技术的飞速发展,人们获取信息的途径大量来自于网络。而Web是一个巨大的信息集散地,又同时也伴随着一个巨大的问题——信息泛滥、混杂。它给Web上信息的有效获取及利用带来一定的困难。如何使用户快速有效的获取和利用Web上的大量信息,这是目前国际上许多机构和组织正在研究的焦点问题,也是Web信息管理的关键技术之一。为此,本文引入本体概念来实现异构Web数据集成,本体的使用有利于解决数据集成中的语义异构问题,这是其它数据集成技术考虑较少的方面。本文在介绍了基本的语义网的原理及相关标准后,重点研究了数据的获取和集成。数据获取的过程分为三个阶段:定义抽取规则,获取网页及清洗页面,格式转换。首先在用户参与下,根据样本页面学习获得抽取规则,之后下载页面并利用Tidy工具清洗,最后由系统完成数据的抽取和转换。文中介绍了基本的基于DOM树的方法,以及改进的基于语义块的方式。数据集成的过程包括:构建领域本体,本体与抽取数据库的映射,查询处理。本体是语义集成的基础,文中阐述了领域本体的构建方式,建模工具,数据库实例的语义标注及查询处理过程。最后对论文工作进行了总结和展望,提出了此方面尚需研究和改进的问题。