基于协程模型的分布式爬虫框架

来源 :计算技术与自动化 | 被引量 : 0次 | 上传用户:c0128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相
其他文献
随着计算机技术和现代通信技术的不断发展及相互融合,计算机网络的应用得到了迅猛的发展。网络新技术和新产品不断出现,加速了数据流和信息流的传递效率,随之而来的网络安全保密
文章首先概括地介绍了变电站通信系统,随后对变电站通信系统的故障问题进行了简要分析,在此基础上对变电站通信系统故障处置技术措施进行论述。期望通过本文的研究能够对变电
水稻是我国的基本粮食,一直是我国人民餐桌上的主食,水稻的产量直接决定了我国的粮食储备,除了要通过提高水稻的种植技术来提高产量,也要分析气候因素对水稻产量的影响,通过
由于我国经济发展技术的快速进步,种植业的机械化进入了新的时代,在实现农作物种植技术方面取得了重大突破和改进,也大大增加了农业种植的产量,也研发了一系列玉米栽培新核心
《产品质量检验机构计量认证/审查认可(验收)评审准则》(以下简称评审准则)的5.2(p)、《实验室认可准则》(以下简称认可准则)CNAL/AC01-2002(即ISO/IEC17025-1999)的5.4.1和5
目前,国际上许多实验室国家认可机构已相继开展了检查机构认可工作,我国检查机构认可工作已开始试点.为使我国的检查机构认可工作进一步与国际接轨,促进检查机构对认可标准、
流浪乞讨人员,这个历来承受着人们复杂观感的社会特殊群体,正在被逐步纳入社会救助体系.然而由于其本身的流动性、边缘性和隐蔽性,社会管理者实际上很难掌握这个群体的详细而
采用特征识别的方法,提取数字的区域像素、水平过线、垂直过线三大方面的17个特征值对印刷体数字进行识别。利用MATLAB进行仿真实验,实验结果表明该识别方法简单,识别率高,速度快,抗干扰性强,对于不同字体、字形、字号的印刷体数字,能够快速准确识别,具有广泛的用途。
儿童与家庭幽门螺杆菌感染的流行病学调查许春娣,贺荣莉,张太锦,奚容平,徐家裕幽门螺杆菌(HelicobacterPylori,HP)感染与慢性胃炎、消化性溃疡的关系,在成人已得到基本肯定[1]。在儿童正受到重视,我们从1993年6月至