论文部分内容阅读
目前,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大信息服务网络,是最丰富和最密集的信息来源。与此同时,纷繁复杂的信息资源的组织和显示方式也各不相同,使得用户在浏览和搜索的过程中遇到很大困难。于是,帮助用户快速准确的获取需要的信息、实现“个性化、一站式”服务已成为Web应用领域的迫切需求,Web信息集成技术已经成为研究热点之一。
在海量的Web数据空间中,Web信息通常以网站的形式进行组织,各个网站设置自己的分类目录进行页面归类、导航,形成信息的组织、分类体系。但是不同的Web站点进行分类体系规划时标准不统一,分类用语不规范,存在明显的语义差异,难以相互兼容、合并,更无法提供多站点Web页面的统一归类。因此迫切需要解决Web信息集成中的分类体系语义异构的问题。
为了解决Web信息集成过程中的Web信息分类体系语义异构的问题,本文引入了本体及其相关技术,研究了在基于分类本体的Web信息集成的背景下异构分类体系的标准化方法,提出了基于Web词汇表的Web信息分类本体,实现了异构分类体系的标准化与合并,很好的解决了网站分类信息语义异构问题。
本文研究的重点是实现一种消除Web信息异构性的方法,并将其在具体应用中体现。首先,本文引入了本体的概念和实例,并定义了Web信息分类体系与基于Web词汇表的Web分类本体WCO;其次,本文详细论述了WCO的构建、存储方法以及分类概念节点在WCO中的查找算法,并给出了实例和实验结果;最后,本文详细论述了Web信息分类体系的标准化方法,并给出了网站分类体系合并方法,解决了语义异构问题,实现了异构信息源的信息集成。