论文部分内容阅读
在网络信息时代的今天,信息量不断在Web上增长,如何获取高质量的信息已成了一个热门的话题。传统的搜索引擎虽然能快速的为用户检索出相关的网络资源,但是需要耗费巨大空间和时间的网页累积,并且缺乏多元化的结果组织.对于有某些特殊专题资源需求的机构来说,一个轻量级的,面向主题的’Web资源采集系统更为有用。目前搜索引擎研究的一个热点问题--主题搜索引擎,就是以构筑某一主题或学科领域的。Web信息资源库为目标,侧重于主题相关网页的获取,采取一定机制,滤出不相关的网页,只覆盖与特定主题相关的Web区域,因此它的爬行层次可以更深,爬行周期可以更短。在查询结果排序时,给予主题相关度高的网页更高的优先级,因此可以满足用户对获取信息资源的快速、准确和全面的要求。
本文研究如何在开源搜索引擎项目Nutch的基础上,采用StrutsMVC(模型-视图-控制器)框架和AJAX(异步JavaScript和XML)动态网页技术,设计一个具有良好用户界面的、能够实际应用的、面向主题的Web资源采集系统,实现按照用户定义的主题对Web资源进行采集和处理,以此构建一个专题资源库,并采用多种方式为用户提供所需的资源。本文首先简要介绍主题搜索引擎的发展现状,然后对Nutch进行介绍,随后详细讨论系统的总体设计,探讨如何利用MVC结构和AJAX技术构建稳定而灵活的系统架构,在后面的章节中将会详细讨论主题爬虫的爬行策略、中文分词、主题相关性判定和资源过滤等具体细节问题,并对该系统进行展示和评价,最后对本研究进行总结,并对下一步的研究做出展望。