论文部分内容阅读
随着互联网走进千家万户,网络上的信息量也呈现出了前所未有的快速增长,通用搜索引擎在采集信息资源、存储索引海量网页等方面的挑战越来越大。同时,特定行业内的科研和从业人员,希望从互联网上得到更专业、更深入和更有价值的信息,不同的年龄段的人群对网上的信息也有着特定需求,有需求的地方就有市场,服务这些专门搜索需求的搜索引擎,即垂直搜索引擎近年来快速发展,成为了搜索引擎领域研究的热门方向。它提供某一个领域的专门的信息检索服务,更好地满足了专业用户的专业化和精细化信息查询需求。本文首先概述了垂直搜索引擎的总体设计,描述了垂直搜索引擎要实现的目标并介绍了垂直搜索引擎的工作原理,垂直搜索引擎的总体模块有网页信息的收集、网页信息的索引,网页信息排序和检索,其中垂直搜索引擎相比通用搜索引擎,重点在于网页信息收集时只收集主题相关的网页,这就要求垂直搜索引擎的爬行器按照一定的收集策略收集网页。传统的收集策略有两种,即基于网页内容分析的搜索策略和基于链接结构分析的搜索策略,它们都是单一的搜索策略,存在着一定的不足。本文提出了一个综合网页内容分析和链接结构分析的搜索策略。其中网页内容分析搜索策略有Fish-Search算法和Shark-Search算法,链接结构分析算法有PageRank算法和HITS算法,本文对这四大类算法分别进行了一一介绍,在此基础上,先提出改进PageRank算法,进而提出了综合的改进算法,期望能指导爬虫收集更多更好的主题相关的网页。为了测试改进后的算法是否有效,本文设计实现了一个网络爬虫软件:VSE—Spider,此系统多线程分布式地抓取互联网上和设定的主题相关的网页,系统的爬虫程序分别采用传统的网页搜索算法和本文提出的改进后的综合网页搜索算法,对VSE-Spider各组实验结果进行对比分析。结果表明,本文提出的改进后的综合搜索策略在收集主题相关网页时有着更好的表现。