网络爬行器的分布式设计

来源 :计算机工程 | 被引量 : 0次 | 上传用户:guosuzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。 The current standalone web crawler has been unable to complete an entire network of tasks within an effective time frame. This article uses a distributed web crawler to solve it. In distributed design, we mainly consider the parallelism of multiple threads within a node and the distributed parallelism between nodes, including the strategy selection and dynamic configurability of distributed web crawler. The experimental results show that the site hashing method basically reached the goal of distributed design, while pursuing load balancing while minimizing system communication and management overhead.
其他文献
目的 观察背俞指针疗法对胃食管反流病患者任督二脉穴位皮温与胃电节律的影响,探讨二者的相关性.方法 观察对象为120例胃食管反流病合格受试者.治疗组60例患者行背俞指针疗法
消费是经济发展的原动力和目的,低碳生产技术比较稳定,短期内难以有明显突破,而消费领域蕴含着巨大的节能减排的潜力,这表明基于消费视角的低碳经济发展模式是比较理想的现实
城乡二元户籍制度在我国历史上起到过积极作用,但它已经不能适应当今经济的发展.这种户籍制度使农民和城镇居民处于不平等地位,妨碍农民创收,削弱农业生产力,延缓我国城市化
A novel avian influenza A (H7N9) virus recently emerged in the Yangtze River delta and caused diseases, often severe, in over 130 people. This H7N9 virus appear
1.由春至夏,在河边的草丛中,到处都有鱼喜欢吃的各种饵料。如蚂蚱、水蜘蛛、油葫芦、蛐蛐以及各种各样的昆虫,等等。这种东西在草丛中特别多,但较难捕捉,最好用工具,如小扣网
本文通过正确认识和理解对医疗器械不良事件监测工作的重要意义,分析和评价了我国医疗器械不良事件监测工作的现状和不足,从加强法规体系、构建技术规范及完善监测网络等环节
石化产业是国民经济支柱产业,产品广泛应用于工业生产、人民生活、国防科技等领域,对促进相关产业升级和拉动经济增长具有举足轻重的作用。目前,全行业拥有3.67万家规模以上
目的 通过对医院护理论文发表数量与质量的分析,探讨目标管理提升护理科研管理的效果.方法 采用回顾性研究的方法,对某综合医院826名护理人员在2008-2010年期间发表于统计源
将邻苯甲酰磺酰亚胺、1.3,4-(口恶)二唑2个杂环同时引入到酰基硫脲中,合成了12种新的N-(5-芳基-1,3,4.(口恶)二唑-2-基)-N-(邻苯磺酰甲酰亚胺乙酰基)硫脲化合物,化合物的结构
Sweepovirus is an important monopartite begomovirus that infects plants of the genus Ipomoea worldwide. Development of artiifcial infection methods for sweepovi