论文部分内容阅读
Web爬虫是搜索引擎和Web信息检索系统的重要基础.本文介绍了一个大型分布式爬虫系统Igloo 1.2版所采用的性能优化措施.它采用分布式的系统结构,通过有效的性能优化方法,如高速通信与优雅爬行的折中、URL Trie快速数据结构和基于"滞后合并"策略的URL数据库存取算法等,使系统能进行高性能的爬行,同时又不影响Web服务器和网络的正常运行.实验表明,Igloo具有高性能和稳定的特点.