响应式爬虫框架的研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:venly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络数据的爆炸性增长,网络爬虫技术被广泛应用于现实世界的各个领域,包括搜索引擎、舆情监控、数据挖掘等。然而在多爬虫任务并发爬取场景下,现有的开源爬虫框架,爬虫开发以及爬取效率都较低。现有框架需要对爬取网站的爬取链路、页面的解析规则以及反反爬策略进行繁琐的配置;同时在爬虫任务并发上,采用多线程同步编程模型抑或是单线程事件循环模型来进行爬虫任务的并发,无法充分利用系统CPU资源。因此,本文提出了一种响应式爬虫框架,该框架针对多爬虫任务并发场景构建了一种响应式爬虫编程模型,并且基于该模型提出了一种基于网站结构的对象模型映射方法。通过网站结构映射,框架描述网站链接的爬取模式和网页数据的解析,避免了繁琐的网页解析规则配置,加快爬虫开发的效率。同时,响应式爬虫编程模型通过异步非阻塞的方式来执行爬虫任务,提高爬虫并发爬取过程中资源利用率,弥补了现有框架的不足。具体工作包括:1.提出了一种响应式的爬虫编程模型,通过构造异步数据流,将数据爬取过程中的阻塞操作通过异步来进行处理,提高了爬虫的运行效率。同时基于该编程模型,本文还提出了一种基于网站层次树结构的对象模型构造方法,避免了繁琐的网页解析规则配置,加快爬虫开发的效率。2.实现了一个响应式爬虫技术框架,针对于爬虫的网页下载、数据解析、代理配置、异常处理等模块进行了实现,支持功能扩展,二次开发。3.将本文提出的爬虫框架与其他的开源爬虫框架进行对比实验。实验表明,相比于现有的爬虫框架,本文提出的框架能够有效地提高网络数据爬取的吞吐量,同时提高资源利用率。
其他文献
堤防工程是保障堤岸沿线人民生命财产安全的重要防线,同时在多方面发挥着巨大的社会经济效益。因此,对堤防工程进行有效的监测和评价对于防灾减灾具有重要意义。堤防工程是一种长距离的线性工程,穿越多种地理单元,其沿线地质条件复杂,诱发堤防失稳的因素多,因此,需要对堤防工程进行多角度、全方位的监测,才能对堤防稳定性作出可靠评价。现有的常规监测方法难以满足堤防工程所需的分布式、长距离、自动化监测需求。论文采用了
激光增材制造技术因其成形周期短,柔性程度高,可以直接成形复杂内部结构等特点,在航空航天零件快速制造及修复领域应用越来越多。激光增材制造过程的热过程以及微观组织决定了零件性能,是目前研究的热点。但是,其熔池凝固具有非平衡高温瞬时性的特点,很难通过实验观察微观组织形态。而采用数值模拟方法对熔池凝固过程组织的形貌进行预测,利用有限元法模拟增材制造成形工艺过程,计算熔池温度场,再将宏观温度场和元胞自动机微
随着互联网和移动应用的不断发展,可供用户使用的移动服务逐渐丰富完善,服务功能的丰富性以及移动应用的复杂性,移动服务的计算密集和时延敏感的应用特点愈发明显。近年来,计算卸载等技术的提出让移动设备可以将自身任务卸载到远程资源丰富的云端,从而克服移动设备的资源限制。但是,目前基于云的计算模式仍然具有高延迟的不足,不能满足移动用户的服务质量需求。在上述应用驱动下,边缘计算技术逐渐发展起来。通过将计算能力、
【目的】牙周炎是一种累及牙周支持组织的慢性感染性疾病,也是糖尿病的主要并发症之一。在牙龈卟啉单胞菌(P.gingivalis)刺激下,牙龈成纤维细胞发生了从氧化磷酸化到糖酵解的代谢重组,糖酵解参与了牙周组织的炎症进展。在高糖条件下,葡萄糖的可利用性大大增加;在P.gingivalis刺激下,高糖条件下的牙周组织糖酵解可能会大大影响牙周组织的炎症反应和细胞死亡过程。细胞焦亡是一种促炎性的可调控的细胞
学位
根据2014年环境保护部和国土资源部发布的《全国土壤污染状况调查公报》显示,我国土壤重金属污染问题严峻。土壤中重金属形态及其生物有效性深刻影响着其生态风险,地球化学形态模型,如土壤多表面形态模型(Multi-surface Speciation Model,MSM),可用于描述痕量金属在不同土壤环境中的形态和固/液分配。土壤中锰氧化物是一种重要的金属氧化物,其比表面积大、表面电荷低、对金属的亲合力
环氧沥青(EA)作为一种特殊的性能优异的反应型聚合物改性沥青,目前已经被广泛应用在特殊路面,尤其是正交异性钢桥面板的铺装。尽管环氧沥青具有一定的韧性,但是经过长时间的使用,尤其是在低温环境下,正交异性钢桥面板的变形会造成环氧沥青铺装层出现纵向的疲劳开裂,这是环氧沥青铺装层最常见的病害。为了解决这一难题,需要对环氧沥青结合料进行增韧改性。作为第二代环氧树脂橡胶增韧改性剂,核壳橡胶(CSR)主要由硬的
磁制冷技术作为21世纪最重要的技术之一,具有高效环保和可靠性高等优点。该技术的主要原理是利用材料的磁热效应,具体表现为外磁场的变化会引起材料自身温度的变化,以此达到制冷或制热的效果。磁热效应的大小通常可以用等温磁熵变(ΔSM)和绝热过程中温度的变化(ΔTad)来表征。目前具有大磁热效应的材料一般均含有稀土元素,但是随着稀土元素的价格上涨以及储量的不断降低,开发无稀土低成本磁性材料变得极为重要。因此
随着我国轨道交通的迅速发展,盾构隧道技术因其施工隐蔽、快速、对地面交通影响小等优点被广泛应用地铁隧道之中。而地铁隧道往往穿越区域长、地质条件复杂,尤其是东部软土地区,地铁盾构隧道运营期间容易出现管片收敛变形、隧道不均匀沉降等病害,严重威胁地铁的安全运行。传统的隧道监测手段难以满足盾构隧道的监测需求,因此探索一种先进的盾构隧道安全监测技术势在必行。论文在前人的研究基础之上,总结了盾构隧道变形的类型、
近年来,列车运行速度的极大提升,导致气动噪声急剧增大,成为列车高速运行时噪声的最主要来源。过大的气动噪声会造成环境污染,严重影响乘客的乘坐舒适度、打扰铁路沿线居民的正常工作和生活。因此高速列车的气动噪声问题成为高速铁路发展过程中亟待解决研究的重要课题之一。本文从高速列车气动噪声的理论研究出发,与在线实验相结合,研究了列车外流场气动噪声的仿真计算和控制方法等问题,具体分为以下四个部分:(1)完成高速