论文部分内容阅读
研究实现了一个分布式网络爬虫系统。系统架构主要分为控制节点和爬行节点两部分,并描述了分布式系统关键技术的解决方案。系统采用二级哈希映射算法进行任务分配以解决基于目标导向、负载均衡的URL分配问题,使用消息通信使节点相互协作,提出利用遗传算法作为该主题爬虫系统的搜索策略,并给出了网页更新策略的改进方法。