【摘 要】
:
随着大数据和人工智能时代的到来,网络上的信息量呈现爆炸式的增长,如何快速准确的从海量的信息中采集到需要的数据成为了人们的重点研究课题。一些网络爬虫工具和系统的出现,在一定程度上缓解了这一状况,但这些集中式的单机爬虫系统并不能完全满足实际生产中的数据抓取需求,而且目前互联网中存在大量采用AJAX技术的动态页面,这也给爬虫系统的设计带来了极大的挑战。针对上述两个问题,论文根据实际问题需求设计并实现了一
论文部分内容阅读
随着大数据和人工智能时代的到来,网络上的信息量呈现爆炸式的增长,如何快速准确的从海量的信息中采集到需要的数据成为了人们的重点研究课题。一些网络爬虫工具和系统的出现,在一定程度上缓解了这一状况,但这些集中式的单机爬虫系统并不能完全满足实际生产中的数据抓取需求,而且目前互联网中存在大量采用AJAX技术的动态页面,这也给爬虫系统的设计带来了极大的挑战。针对上述两个问题,论文根据实际问题需求设计并实现了一个支持动态页面抓取的分布式爬虫系统,旨在解决传统单机网络爬虫抓取效率慢和动态网页抓取低效的问题。系统采用分布式架构的思想改进了传统单机爬虫的系统结构,将速度较慢的动态页面下载模块分离为独立的分布式服务,这种分布式的设计方式可以解决爬虫控制模块和动态页面下载模块速度不一致的问题。各爬虫节点为对等式结构,节点之间通过消息队列Rabbit MQ进行通信,这种设计方案为系统提供了良好的可扩展性和可伸缩性。系统基于Web Magic设计了爬虫页面解析器,用户的爬虫程序可以非常方便的对爬取到的页面进行数据抽取。系统采用基于Node.js的Puppeteer框架实现了动态页面下载器,此框架提供的API可以控制Chromium无界面浏览器下载采用AJAX异步加载技术的动态页面,并可以在内存中模拟用户的操作,系统使用这些API设计了一种抓取动态页面的解决方案。系统还提供对爬取页面数据的存储功能和基本的URL去重过滤功能。论文设计和实现的分布式动态页面爬虫系统在传统单机爬虫的基础上改进系统架构,并提升爬虫程序的抓取性能,为进一步的爬虫系统研究提供了依据。系统同时还具有动态页面抓取的功能,经过优化和改进后的动态页面下载模块对异步动态页面的抓取提供了良好的支持,抓取动态页面的能力有了进一步的提高。系统测试结果表明预期功能得以实现,并达到了较好的性能目标。
其他文献
轮廓误差是在机床加工曲线及曲面时一定会产生的,严重影响着工件的加工质量。轮廓误差的预测和补偿是提高CNC机床轮廓性能以实现更高零件加工精度的一项至关重要的技术。本文基于数控机床加工过程中的历史数据,借助于深度学习和强化学习算法,提出了一种基于进给系统响应模型的轮廓误差离线补偿方法,这是一种在加工指令上进行修调的算法。离线补偿算法的一个必要条件是获得进给系统的仿真模型。本课题基于机床的加工数据,参考
叶片作为风力发电机组的重要组成部分,其气动性能对风力机的风能利用效率及整机功率输出有着重要意义,因此是风力机气动性能研究的核心问题。风力机的稳定可靠地运行对其并网发电效率及发电质量有着重要的作用。然而在系统服役过程中,叶片不可避免地会遇到腐蚀和载荷等多种不确定性因素的影响。在这一过程中,倘若结构性能对某一个或几个不确定性因素的变化过于敏感,则会使得风力机能量转化效率急剧下降,产生经济损失。因此,开
顶枪系统是RH真空精炼炉的主要设备,顶枪系统的完好性直接制约着RH炉的正常冶炼能力。本文分析了迁钢公司原有RH炉燃烧系统的不足,并对其进行了行之有效的改进。本文的研究内容主要包括以下几个方面:介绍了二次炼钢的相关信息和RH真空精炼法的冶炼工艺和顶枪的冶炼功能分析了顶枪的硬件构成和工作流程,分析了顶枪点火系统故障率高的原因,并针对性的提出了改善方案。提出了顶枪控制系统的PLC改造方案。叙述了 PLC
随着工业的快速发展,CO2温室气体排放逐年增多,温室效应加剧,地球变暖,温室气体减排成为全球研究和关注的焦点。寻求一种能将大气中的CO2转化和利用的方法成为当前研究的热点之一。采用熔盐电解的方法将吸收在熔盐中的CO2进行分解,其中在阴极分解得到碳,在阳极分解得到O2的这种方式无疑是对CO2转化利用的最好结果。本研究主要利用LiF-Li2O来吸收CO2,研究在LiF-Li2O-CO2熔盐体系中电解C
如今,陶瓷喷墨打印技术蓬勃发展,在陶瓷装饰领域应用广泛。目前国内使用的陶瓷墨水均是借助分散剂将纳米或亚微米色料颗粒分散于水基溶液中。然而,色料颗粒的团聚极易导致墨水喷头堵塞损坏;墨水也会在运输的过程中产生沉淀,严重影响墨水的稳定性。为了解决上述问题,本文通过无机盐和有机酸络合反应,制备以金属络合物为主要成分的均一稳定的水溶性钴蓝无颗粒墨水。本论文的研究结果对于陶瓷喷墨印刷墨水的研发及其应用具有重要
全员生产维护(Total Productive Maintenance,简称TPM)是上世纪六十年代末日本企业提出的一种管理思想,是以提高设备综合效率为目标,以全系统的预防维修为过程,全体人员参与为基础的设备保养和维修管理体系。TPM对发挥设备生产潜力,提高企业经济效益,增强企业竞争力起着重要作用。本文以SGJH公司的TPM实践活动为研究对象。首先阐述了企业在外部咨询专家指导下实施TPM改革的历程
三相交流电弧炉在大型炼钢中占有的比例在日益增大,而它需要控制的部分是电极调节系统。电极调节系统包含两部分,分别是液压系统和供电系统。要想对电弧炉更好的控制,对电弧炉电极调节系统更好的进行辨识是十分关键的。像三相电弧炉这样复杂的工业系统,不能通过简单的数学和物理等定理推导出机理模型的参数,只能通过数据的方法得到模型的参数,即系统辨识的方法得到系统的参数。电弧炉电极调节系统可以看做是三个Hammers
近年来,由于环境污染以及能源紧缺等问题的加剧,汽车制造业将安全、环保、节能作为主要发展方向。高强度双相钢在满足汽车安全要求的同时,实现了车身轻量化,是理想的车身材料,在汽车工业中得到广泛应用。目前,在冷轧双相钢的实际生产过程中,热轧组织一般为铁素体-珠光体。然而,这种热轧初始组织容易造成两相区退火后出现带状马氏体,导致组织均匀性降低,从而使高强度冷轧双相钢在加工过程中会出现局部成形开裂等问题。因此
随着计算机技术与仪表技术的迅速发展,它们已经普遍应用于工业过程中,大量的工业生产过程数据被存储下来,因此,基于数据驱动的过程监测和故障诊断方法得到了广泛研究和应用。在磨矿分级生产过程中,由于生产过程的复杂性和不确定性,传统的过程监测方法很难准确的监测出故障。对此,本文在分析研究现有的过程监测方法的基础上,结合现代磨矿分级过程已普遍采用计算机与仪表技术的实际情况,充分的利用生产过程中的监测数据和专家
随着机械构件向大型化、复杂化和高温、高速使用环境等方向发展,在一些可靠性和安全性要求高的领域,构件又具有成本高、批量小以及失效模式和失效机理复杂等特点,使得对其进行寿命预测成为国内外广泛关注和研究的技术难题。本文以支持向量机理论为基础,通过分析以往在工程应用中结合支持向量机算法进行疲劳寿命预测的模型存在预测精度不高且不稳定、参数优化效果不佳等方面的不足,提出了基于粒子群优化混合核函数的支持向量机的