论文部分内容阅读
Web2.0的迅速普及带给人们丰富信息的同时,也使人们对信息的把握能力大大下降,庞大的信息量已经超出了人们预期的设想。传统的信息检索系统已经不能满足用户需求,通用搜索引擎的出现满足了一般用户的基本需求,但它在特定领域的主题搜索和用户个性化搜索服务方面仍有不足。本文提出的基于个性化服务的汽车主题搜索引擎系统正是为了弥补这些方面的不足。本文首先介绍了搜索引擎的研究背景和工作原理,接着深入分析Heritrix网络爬虫的体系架构,扩展Heritrix的相关组件以定制汽车主题网络爬虫,并引入URL散列算法ELFHash算法改变Heritrix网络爬虫原有的Key分配策略,使得爬虫可以多线程抓取同一域名下的网页,实现了汽车主题爬虫的多线程,高效抓取网页的目的。本文采用Lucene全文检索框架作为系统的搜索框架,介绍了全文检索的基本原理和Lucene的相关技术:索引技术、排序技术等,并在此基础上指出Lucene原有结果排序方法的不足,它仅仅是以网页内容的相关度作为网页排序的依据,不能客观的反映网页的重要性,为此在Lucene原有的排序算法的基础上引入谷歌的PageRank算法,将二者结合起来,改进了原有排序算法。在上述理论研究工作的基础上,本文设计并实现了一个基于个性化服务的汽车主题搜索引擎系统,从用户的购车需求入手,将系统分为汽车主题爬虫模块、汽车网页信息抽取模块、索引模块和用户查询模块四个模块,并详细的介绍四个模块的技术原理和实现方法。最后,本文对系统整体和相关的理论研究工作分别进行了测试实验。通过比较分析对同一查询词的查询结果,得出了相比于一般通用搜索引擎和主题搜索引擎,本系统具有个性化搜索服务、搜索结果更准确的结论。接着测试比较了改进前后的主题爬虫的抓取效率,验证了改进后的主题爬虫抓取效率有了比较明显的提高。最后测试了Heritrix设定的最大线程数和爬虫抓取效率的关系。