论文部分内容阅读
本文对分布式搜索引擎设计与实现进行了研究。文章实现了互联网搜索引擎中的核心功能,完成了一个基本的面向大规模互联网的分布式搜索引擎平台。在分布式爬虫子系统中,多个爬虫应该避免重复爬行,按照URL的Hash值为每个爬虫分配一个URL空间,互不重叠,并通过调整爬虫爬行的URL空间来进行负载均衡。另外,本文实现的爬虫系统可以同时支持IPv4和IPv6网络。存储子系统由若干个存储组构成,每个存储组存储互不重叠的一个URL空间的Web对象,由主服务器发布这一存储策略。