论文部分内容阅读
针对当前网络上信息呈爆炸式增长的态势,我们如何更好更快地获取有效信息就成了一个问题。我们获得信息最主要的途径就是通过搜索引擎,网络爬虫在整个搜索引擎中起着最为重要的作用。研究网络爬虫的功能和结构、设计并实现一个基于广度优先爬行策略的带URL消重功能的网络爬虫、对该网络爬虫进行测试验证爬行效果和对设计的三种消重算法的性能进行比较研究,提高爬虫的爬行效率;最后,采用广度优先的爬行策略,验证了该爬虫的爬行效果。