论文部分内容阅读
互联网的信息在过去几年爆炸式的快速增长,这种快速增长和Web的动态变化特性使得我们在Web上完成有效的信息获取变得十分重要。网络爬虫是一个自动程序,它能有条不紊地通过扫描网页然后下载经由这些网页链接到达的所有页面。当用户只需要一些面向主题的信息时,通用网络爬虫往往显得力不从心,因此如何让用户只获取自己感兴趣的主题信息变得非常重要。在这种形式下,面向特定主题的主题爬虫成为了研究热点。本论文的研究就是围绕这些热点技术展开的。
本文首先简单介绍了搜索引擎的分类以及通用搜索引擎的组成部分,论述了主题爬虫的工作原理以及与通用爬虫的区别,研究并探讨了主题爬虫的关键技术以及常用的解决方法。
由于主题爬虫的搜索策略是实现主题搜索引擎的一个重要模块,它直接决定爬虫的爬行方向,制约着搜索引擎的工作质量和效率问题,所以本文主要讨论主题爬虫的搜索策略。考虑到互联网上存在的“隧道现象”所导致的很难兼顾查全率和查准率的问题,本文在详细研究现有搜索策略和PageRank算法的基础上,把现有的个性化PageRank算法和PageRank下界值等概念运用到主题爬虫中,提出了一种基于锚文本内容和PageRank算法的搜索策略。通过该算法主题爬虫能够尽可能多的爬取主题相关且Rank值高的网页,即在查全率与查准率之间达到较好的平衡。
最后应用本文提出的搜索策略实现了一个简单的主题爬虫系统并进行了实验分析,以开放式分类目录搜索系统ODP中随机选择的主题作为实验环境,对广度优先搜索策略、基于锚文本内容的搜索策略以及本文提出的基于锚文本内容和PageRank算法的搜索策略进行了测评比较,实验结果表明本文提出的搜索策略在大部分主题上拥有很好的性能,即较好的兼顾了查全率和查准率,使主题爬虫在保证查全率的同时采集主题相关的高质量网页。