论文部分内容阅读
多线程爬行是高效率网络机器人实现的关键。分析在单个计算机节点上网络机器人多线程爬行的关键流程,并借鉴硬件指令流水线的执行过程研究不同多线程并发调度策略下系统的性能特点。最后,给出实现网络机器人多线程爬行的关键数据结构、并发调度方法及URL消重策略。实验数据表明:有效地控制并发和有选择地消除重复URL可以提高网络机器人的爬行速度。