论文部分内容阅读
现今互联网已经成为了信息的海洋,每天有上亿张新页面发布到互联网中,虽然其中大型的门户网站汇集了大量的信息,但是国内数以万计的中小型网站的信息量总和确实远远高于门户网站的。搜索引擎将这些信息通过采集、智能分析、排序等手段可以快速的根据用户提交的关键字从数据库中提取出来呈现到浏览器中。但是面对互联网呈指数级别增长的信息来说,通用搜索引擎提供的检索结果在准确性和专业性上已经远远不能满足用户的需要,特别是利用传统通用搜索引擎来进行某一特定领域的深度专业搜索时,用户需要的是这个领域专业且全面的信息回馈。由此看来,利用特定领域垂直搜索引擎进行专业精准搜索越来越成为搜索引擎领域的研究热点和发展趋势。 生活服务领域是指与我们日常生活息息相关的一些服务类的信息,它包含了饮食、娱乐、出行等。在每个城市、每个地区都有成千上万的商家在互联网中发布信息,但是如何才能让用户准确的找到自己身边有什么样的服务和商品呢?在本文系统中通过对生活服务类市场需求背景进行研究分析,利用垂直搜索引擎技术,对互联网上各个城市网站中的信息内容进行采集,利用开源搜索引擎Lucene框架和Heritrix蜘蛛,实现了各城市生活服务搜索引擎的研究与设计,主要研究工作如下: (1)针对生活服务的特点,确定了本搜索引擎系统的基本功能需求和设计方案,完成了系统的各项功能模块的设计、采集页面数据存储、索引的建立以及中文分词系统的设计。 (2)对Heritrix蜘蛛框架加以改进,实现对特定城市的生活服务信息的抓取与订制。 (3)在系统采集模块中加入了主题关键字预测算法,建立了专业的生活服务词库,利用词库仅选择相关性高的页面进行采集,提高了入库主题网页的相关度。 (4)利用PageRank算法的设计思想改进原有的Lucene排序算法,利用权重来提高搜索引擎的查询准确率并对搜索结果进行相关度排序。 通过对系统各项功能模块的测试,本系统设计和实现的生活服务类垂直搜索引擎的方案是可行的,能够满足此类用户的检索需求。与通用搜索引擎相比,搜索效率有了进一步提高,对于生活服务相关信息的搜索结果的准确率有了明显提高,并通过图文并茂的方式反馈给用户,更加直观,系统基本达到了预期的设计目标,满足了此类用户的个性化检索需求。