论文部分内容阅读
随着Internet/Intranet的快速发展和普及,丰富的Web资源构成了一个巨大的全球信息仓库。一方面,Web信息数量庞大,门类齐全,几乎任何信息都可以在Web上找到;另一方面,相对于海量的Web信息空间,用户感兴趣的信息只是其中极少的一部分,从纷繁芜杂的海量信息中找到需要的信息十分困难。帮助用户快速准确的获取需要的信息、实现“个性化、一站式”服务已成为Web应用领域的迫切需求,Web信息集成技术已经成为研究热点之一。
在对Web信息特点和Web信息集成原理大量研究的基础上,本文提出了基于分类本体的Web信息集成机制。在基于分类本体的Web信息集成中,重点考虑网站本身的组织结构:根据网站组织结构,抽取网站分类体系,并使用该体系进行基于结构的页面信息分类;在网站分类本体的支持下,集成各信息源网站的分类体系,并合并对应类别下的信息,得到通过集成分类体系组织的集成视图,实现多网站集成。
本文给出了实现基于分类本体的Web信息集成系统NEU-WⅡS(NortheasternUniversitycategoryontologybasedWebInformationIntegrationSystem)。深入研究了NEU-WⅡS系统中的两个核心问题:信息获取及信息预处理;集成视图构建及个性化支持。信息获取部分研究并实现了包含网站结构获取的页面下载程序,和网站分类体系抽取程序;信息预处理部分研究并实现了HTML内容抽取,和基于结构的Web信息分类;集成视图构建部分研究了基于Portal和基于分类浏览两种视图模式,并分别阐述了其中的个性化支持机制。