论文部分内容阅读
当今的互联网已经成为信息的海洋,虽然门户网站集中了大量的信息和访问量,中小网站的信息量和访问量总和更是远远超过门户网站。通用搜索引擎提供了从信息海洋撷取信息的有效方式,但面对指数级增长的海量信息,通用搜索引擎提供的检索结果在准确性上已经不能满足用户的需要,特别是利用传统搜索引擎来进行专业领域的深度搜索时,其查全率和查准率远远不能满足用户的个性化需求。因此,利用垂直搜索引擎进行精准搜索越来越成为搜索引擎领域的研究热点和发展趋势。随着中国经济的快速发展和人们生活水平的提高,与此同时社会生活节奏加快。为了缓解压力,改善生活质量,越来越多的人选择领养宠物来调节生活。据有关部门不完全统计,仅中国就有将近一亿条(只)宠物,宠物用品市场发展迅速前景良好,宠物相关经济越来越成为推动国民经济增长的有利因素,然而目前宠物市场鱼目混珠,产品良莠不齐,很难令宠物爱好者挑选到满意的产品。在本文系统中通过对宠物用品需求背景进行研究分析,利用垂直搜索引擎技术,对互联网上的知名宠物用品网站中的宠物用品信息内容进行采集,利用开源搜索引擎Lucene框架和Heritrix爬虫,实现了宠物用品搜索引擎的研究与设计,主要研究工作如下:(1)针对宠物用品的特点和宠物用品搜索引擎的需求分析,确定了系统的基本功能需求和设计方案,完成了系统的功能模块设计和数据存储以及系统数据备份策略。(2)对Heritrix爬虫框架加以改进,实现对宠物用品信息的抓取与定制。(3)在系统抓取模块中加入了主题预测算法,建立了专业宠物用品词库,使其适合于主题搜索引擎,提高了抓取网页的主题相关度。(4)利用PageRank算法改进原有Lucene排序算法,对搜索结果进行相关度排序,提高了搜索引擎的查准率。(5)以Eclipse为开发环境,设计和实现了宠物用品垂直搜索引擎核心模块。通过系统测试,本文设计和实现的宠物用品垂直搜索引擎的方案是切实可行的,能够满足用户的检索需求。与通用搜索引擎相比,搜索效率有了进一步提高,搜索引擎的的查准率有了明显的提高,系统基本达到了预期的设计目标,满足了用户的个性化检索需求。