论文部分内容阅读
目前WWW已经发展成为包含多种信息资源、站点遍布全球的巨大信息服务网络,成为世界上最丰富和最密集的信息来源。人们越来越多的通过搜索引擎进行信息的查找。然而,一般搜索引擎返回的Web网页往往跨越多个领域,其中会有许多内容不是用户感兴趣的。因此快速、准确的从庞杂的网络信息中找到用户关心的信息变得极为困难。
在海量的Web数据空间中,Web信息通常以网站的形式进行组织,各个网站设置自己的分类目录进行页面归类、导航,形成信息的组织、分类体系。根据Web信息组织的这一特点,抽取网站的分类体系,实现Web页面的自动归类,进行Web信息的集成,从而可以形成逻辑统一的、基于分类的Web信息视图,这对于方便用户浏览、快速定位所需信息具有重大意义。但是不同的Web站点进行分类体系规划时标准不统一,分类用语不规范,存在明显的语义差异,难以相互兼容、合并,更无法提供多站点Web页面的统一归类。因此迫切需要解决Web信息集成中的分类体系语义异构的问题。
为了解决Web信息集成过程中的Web分类体系语义异构的问题,本文引入了本体及其相关技术,研究了在基于分类本体的WWW信息集成的背景下异构分类体系的集成方法,提出了基于SUMO的Web分类领域本体,实现了异构分类体系的合并,很好的解决网站分类信息语义异构问题。
本文详细论述了基于上层知识本体SUMO的Web分类本体构建,WCO公理系统对自动推理的支持,以及采用自动推理技术实现异构分类体系的合并,构建全局Web信息视图,并给出了相关试验数据。