论文部分内容阅读
今天,在Web信息资源极大丰富的同时,对Web信息搜索工具的研究也提出了更高的要求。由于目前Web的规模和它的动态性,通用搜索引擎仅能爬行和索引Web的一部分。因此,通用搜索引擎已经很难再为用户提供一个全面的并且更新及时的信息搜索服务。通用搜索引擎的局限性来源于它试图索引全部Web并且试图服务于涉及所有主题的查询请求。而主题搜索引擎只覆盖与某一主题相关的Web区域,这样,它爬行的可以更深,爬行的周期可以更短,因此可以满足用户对获取信息资源的快速、准确和全面的要求。为了有效定位与主题高度相关的网页,主题搜索引擎利用丰富的上下文(兴趣剖析文件和网页内容)和有效的爬行策略来导航Web上的信息搜索。目前,对主题搜索引擎的研究正处于十分活跃的阶段。许多机器学习领域里的知识被应用到主题搜索引擎的设计和实现中。 本文作者广泛阅读和研究了国际上最近几年发表的有关“主题搜索引擎”的论文及资料,对目前主题搜索引擎的研究及应用状况有了一定程度的认识。在此认识的基础上,本文确立了两个目的,一个目的是对有关文献中给出的重要而富有创新的研究成果做一个比较详细的介绍,另一个重要的目的就是设计和实现一个主题搜索引擎原型,从而借助这个原型可以验证我们自己或其他研究人员在搜索策略上的一些想法及它们的应用价值。