论文部分内容阅读
互联网日新月异的发展使得网络上存储的资源越来越多,网页文本、音乐、图片、视频等形式各异的资源充斥其中,难以快速精准的从中找到自己想要的信息资源。这种需求催生了垂直搜索引擎的快速发展。本文首先研究了垂直搜索引擎发展的历史和趋势,之后详细的研究了垂直搜索引擎中涉及到的各种技术,设计并实现了一个面向博客领域的个性化垂直搜索引擎。本文的主要工作主要包括以下几个方面:(1)分析并对比了通用网络爬虫和垂直网络爬虫的系统架构和基本原理,对主题判定算法进行了研究,归纳了用户的搜索行为对垂直搜索引擎产生的反馈作用,研究并归纳了常见加密算法的性能和特征;(2)设计并实现了一个基于Nutch的分布式主题爬虫模块。首先详细分析了 Nutch的架构和工作原理,提出了一种能够将通用爬虫Nutch改造成垂直网络爬虫的方案。然后基于朴素贝叶斯文本分类算法实现了贝叶斯文本分类插件,在贝叶斯文本分类插件工作过程中加入了 URL主题判定模块,加深了 Nutch的爬行深度,并利用Nutch的插件机制将其引入到Nutch的工作流中,将通用爬虫Nutch改造成为垂直网络爬虫;(3)设计并实现了一个基于Solr的个性化用户查询模块。首先研究了用户搜索行为信息对用户搜索可能造成的影响,设计了一个基于Solr的个性化用户查询模块,该模块能够将用户的搜索行为收集入库,利用向量空间模型算法从中分析出用户的兴趣模型,并根据兴趣模型对用户的当前查询做出查询扩展,将Solr改造成为个性化查询模块;(4)在设计个性化用户查询模块时,考虑到对用户隐私的保护,采用安全套接层协议SSL对用户行为信息进行传输,然后利用数据库加解密模块对用户的行为信息进行AES加密,并将加密后的数据存储到数据库中,保护了用户的隐私安全;(5)设计并实现了基于Nutch的面向IT科技博客领域的垂直搜索引擎,并对搜索引擎进行了相关实验。实验表明,本文提出的设计方案是有效的,虽然为了实现主题过滤功能,爬虫的爬取效率有所降低,但是相较于原有的Nutch系统和通用搜索引擎百度,查准率得到了较大的提升。