论文部分内容阅读
由于Web海量的信息处于不断的变化中,搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web信息并服务于所有主题的查询请求。相比之下,主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的内容可以更深,搜索的周期可以更短,因此能满足用户对快速、准确的获取信息资源的要求。目前,基于主题的Web搜索引擎正成为计算机科学界和信息产业界争相研究、开发的对象。本文首先简要介绍了搜索引擎及其发展现状,分析了存在的优缺点;然后通过对当前通用搜索引擎技术的学习和研究,结合基于主题搜索引擎的特点,设计出了基于主题搜索引擎的各个模块和总体的架构;而后本文分三个章节详细分析、设计和实现了该搜索引擎的三大模块:基于规则的中文分词模块、基于主题的Web信息抓取和Web内容的存储与索引模块。它们构成了本文的核心部分。通过对基于规则的中文分词模块的设计和实现,创新性地将词典、词性、词频信息,改进的传统分词算法和中文文法筛选规则结合起来,从而大大提高了分词的正确率;通过对基于主题的Web信息抓取模块的设计和实现,在完成了基本的信息抓取的基础上,还利用动态Web信息抓取技术解决了Web2.0给传统信息抓取带来的困难;通过对Web内容的存储与索引模块的设计和实现,实现了文档数据的B+树索引存储,还通过对CLucene源码的修改和扩展,将CLucene索引模块结合进来,实现了扩展性较好、效率较高的中英文Web内容的索引和存储。在文章最后的总结也讨论了这些技术及其将来还需进一步研究的内容。