基于大数据的招聘信息爬虫技术研究与实现

来源 :中国新通信·理论版 | 被引量 : 0次 | 上传用户:liangfeng905
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:网络招聘中信息量巨大,数据冗余较多,导致很多求职者在浏览招聘信息时往往不知道如何选择。网络爬虫,一种基于python语言的专有性搜索工具,能够将网络上的信息下载保存到本地,还能将网页爬取到的大量信息用于数据分析和大数据研究。
  本文实现了Scrapy爬虫对招聘网站的数据爬取,通过搭建Flask框架对采集的数据进行可视化分析。其分析结果可以帮助求职者在浏览招聘信息时更好地评估工资水平,有效地判断招聘信息是否合理,进而有效提高求职者在寻求招聘岗位时的效率。
  关键词:网络爬虫;Scrapy框架;网络招聘信息
  随着互联网的高速发展和大数据时代的来临,网络招聘已经成为企业之间人才竞争的主要手段。相对于传统的线下招聘而言,网络招聘成本低、覆盖面广、易于发布信息、招聘信息种类众多[1],通过网络平台求职者还可以更快地与招聘者进行沟通联系,节约了彼此之间的时间成本。同时由于“互联网+”经济的蓬勃发展,使得网络招聘成为我国招聘市场的主流趋势[2]。招聘信息本身存在不同时段的时效性,不同政策的工资变化不同,冗余度大,成效低,让求职者很难匹配到自己心仪的工作。
  本文使用网络爬虫技术爬取三个招聘网站的招聘信息,将爬取下来的招聘数据进行智能可视化分析,发掘数据中隐藏的价值,摸索网站招聘规律。通过得出结论,可以更有效地帮助求职者找到适合自己的工作。
  一、网络爬虫技术概述
  随着大数据时代的来临,互联网上的数据容量爆炸性地增长,高性能的网络搜索引擎以及定向的信息获取的需求,使得网络爬虫技术逐渐成为人们研究的对象。网络爬虫就是通过模拟浏览器发出网络请求,获取网站服务器返回的响应,并按照一定需求爬取数据的脚本程序。网络爬虫可以分为两类:通用爬虫和聚焦爬虫。
  1.1 通用爬虫概述
  通过用户初始规定的一个待爬取URL地址列表,爬虫从中按顺序爬取URL地址,通过DNS解析获得到主机网页的ip地址,然后交给下载器去下载网页,将采集成功的网页保存到本地磁盘中,并且将已爬取的URL地址做出标志防止二次爬取,保存到磁盘中的网页又存在许多链接信息,再从中抓取URL地址放入待爬取列表中去进行分析。如果发现有未下的url就放在待抓取url队列的列尾,从而等待调度下载。如此循环下载,待抓取队列为空时,爬虫就完成了对网页的下载。
  1.2  聚焦爬虫概述
  通用网络爬虫所采集的网页数据和正常用户在浏览器中访问的数据是一样的,而在大多数情况在,这些网页数据中有90%是对用户来说是不需要的。聚焦爬虫则可以根据用户的需求而去爬取特定的一些内容,是一种面向主题、面向需求的爬虫。本次论文所使用的爬虫就是聚焦爬虫。
  二、搭建Scrapy框架
  2.1 Scrapy框架
  Scrapy框架是Python语言开发的,基于Twisted异步网络框架的开源爬虫框架。用户可以根据需求在Scrapy框架各个模块中编写好要爬虫的规则、存储的结构,就能快速、灵活地爬取web网站的数据。其主要的框架組件有以下几个:
  (1)Scrapy Engine(引擎)组件:负责各个组件之间的连接、信号传递
  和数据通信,是整个框架组件的核心。
  (2)Spiders(爬虫)组件:用来定制爬取web网页的规则,发出Request
  请求到Schedule(调度器),同时也接收Downloader(下载器)发送过来的Response响应,并从中提取到item字段所需要的数据由引擎发送到Item管道,如果有需要根据的url链接,就继续提交给调度器。
  (3)Schedule(调度器):接收到爬虫组件发送过来的Request请求,将请求进行入队列处理,进而交给Downloader下载。
  Scrapy架构图如下所示,其中绿线表示数据流向。
  图2为Scrapy框架的工作流程图。
  三、 基于网络爬虫的数据采集实验
  本研究的实验基于Python软件进行,对北京计算机岗位招聘信息进行爬虫实验,其中爬虫程序运行过程如图3。
  运行完毕之后,打开navicat可视化工具查看下载的招聘数据内容,如图4。
  三个爬虫项目最大的区别在于各自网站数据传输的URL,这是各不相同的,通过抓包分析能获取到网站数据传输的Json地址,将其包装到爬虫模块中去发送请求。前程无忧和拉钩网爬虫项目的反爬虫设置、数据库连接、数据清洗都与智联招聘网爬虫项目一致。执行各自的爬虫名即可完成对网站数据的抓取。
  四、结论
  本文实现了使用Python的Scrapy爬虫框架对三个招聘网站的招聘信息采集,本文从求职者的角度去进行数据分析,利用Flask框架简单,灵活的特点,完成后台服务器的搭建和使用SQLAlchemy模块对采集的数据进行操作,实现可对不同岗位进行搜索分析的网页。求职者可以通过图形的分析结果进而判断招聘信息是否合理,有利于更好地选择工作。
  参考文献:
  [1]杜玉帆,杜莹莹.“互联网+”时代下网络招聘行业发展探析[J].中国市场,2018(11):180-181.
  [2]耿玉德,张元元.招聘网站求职满意度影响因素分析——以高校大学学生为例[J].工业经济论坛,2018,05(05):82-89.
  [3]杜玉帆,杜莹莹.如何应对网络招聘中的虚假信息[J].中国市场,2018,(11):180-181.
  [4] 北京大学天网搜索引擎[EB/OL].http:∥pku.edu.cn,2019-05-03
  [5]赵禹婷.我国网络招聘市场的现状及提升对策研究[J].现代交际,2019(05):243-244.
  [6]毕宁宁. 移动互联网环境下企业招聘渠道研究[D].东北师范大学,2018.
  [7]郭越. 虚假网络招聘中的法律问题研究[D].山西大学,2018.
  [8]郑毅. 某公司招聘管理系统设计与实现[D].电子科技大学,2018.
  [9]赵丹. 网络招聘信息的分析与挖掘[D].贵州财经大学,2017.
  [10]彩广畏. 从网络招聘信息看我国人才需求状况[D].湖南师范大学,2017.
  作者简介:
  张婷,(1982.08.29-),女,岳阳职业技术学院,414000,汉族,湖南省岳阳市,硕士,讲师,大数据。
其他文献
作者简介:  魏雅楠(1991.1-),女,汉族,籍贯:湖南,硕士,单位:湖南科技學院,研究方向:视觉传达设计。
期刊
摘 要:本文介绍应用于5G项目平行板连接器,具有多方位插拔,维护方便,板间距小,通流能力大的特點,是针对现有技术的不足而提供的一种PCB板之间互连的连接器。  主题词:平行板连接器;插拔力;温升  一、引言  现有技术印制电路PCB板在电子产品中的应用极为普遍,PCB板与PCB板之间的电路连接均需通过连接器。随着设备向小型化方向发展,PCB板与PCB板在电子产品中的间距及活动空间不断减小,导致板
期刊
摘 要:缤纷社區是浦东新区在社会治理创新背景下开展的常态化社区微更新的探索。浦东新区经试点摸索,建立起了一套适应自身特色,以政府和居民为核心,带动和促进专家、社会组织等多方和谐共进的微更新建设机制,并以此为载体,探索一条符合超大城市特点和规律的社会治理新路。浦东新区的实践,为其他城市开展社区微更新工作提供可借鉴的经验。  关键词:微更新 缤纷社区 建设机制 公众参与 自治共治  1、背景  20
期刊
摘 要:随着饲料生产中抗生素的禁用,饲料添加剂中急需一种新型药物添加剂替代抗生素,而中草药无疑成了最合适的选项。中草药具有低毒安全,经济环保等特点。研究证明中草药添加剂可改善畜禽肠道微生物种群、杀菌抑菌而提高畜禽的免疫力。中草药添加剂在饲料产业的应用前景宽广。  关键词:中草药;添加剂; 畜禽业  禁抗在饲料业的全面实施,意味我国饲料企业将停止生产含有抗生素添加剂的饲料。而在改善动物生产性能方面
期刊
作为国内健康产业的知名企业,杭州路康生物科技有限公司以营养补充剂和医药中间体为主营项目,致力于为国内外合作伙伴和客户提供膳食補充剂产品、医药外包一站式解决方案等。公司创始人兼总裁张海燕毕业于宁波大学食品科学工程系,2003 年获得英国爱塞克斯大学生物工程硕士学位。凭借专业背景和广阔的国际视野,她带领团队积极开拓国际市场,同时在产品服务领域不断寻求突破,为全球各大制药企业提供产品开发咨询等服务,帮助
期刊
摘 要:科技的进步与发展,光纤通信技术也随之产生,其是一种现代化通信技术,其是国际通信技术历史上大重要里程碑,是通信行业实现创新发展的起点,为了能够在百姓生活、国家发展中应用通信技术,一定要对光纤通信中光缆线路的施工技术要点进行有效把控。文中深入探析光纤通信工程中光缆线路方面的施工技术要点,希望能够推动国家光纤通信工程的现代化发展,为国家通信工程的现代化发展提供一些帮助。  关键词:新时期;光纤
期刊
摘 要:针对航空发动机监视与维护具有很强的主观性和周期长等缺点,本文提出了航空发动机健康管理,最大限度地利用发动机不同的数据资源,对发动机的故障进行诊断、对健康状态进行预报,从而增加飞行任务的安全性、可靠性,提高维护性和出勤率,减少发动机的维护费用和维修时间。  关键词:航空发动机;大数据;健康管理  传统上,航空发动机在空中主要是依靠航空发动机电子控制器发送少量的数据和飞行员感官和经验判别发动
期刊
摘 要:互联网的快速发展带来了海量数据的产生,现如今在生活中,我们无时无刻地创造着网络数据。大数据时代的到来,已经影响了社会生活方方面面,要想把握住信息时代的潮流,我们就应该懂得大数据并且学会利用大数据技术来服务于日常的工作。本文首先说明大数据的价值,其次介绍一些大数据的关键技术,最后结合实际应用案例展现出大数据给我们带来的好处。  关键词:大数据;Hadoop;大数据分析  自2012年开始,
期刊
摘 要:文章以嵌入式计算机技术及实践为研究对象,首先简单介绍了何为嵌入式计算机技术,并分析了其具备的特点,随后探讨了嵌入式计算机技术在不同领域中的應用实践,最后对嵌入式计算机技术应用发展趋势进行了展望分析,以供参考。  关键词:嵌入式计算机;应用实践;发展趋势  前言:计算机技术内容丰富,应用领域广泛,嵌入式计算机技术作为计算机技术的一项重要分支,它的存在有效优化了当下计算机的形态与性能,使其能
期刊
摘 要:如今,我国已经进入信息时代,新媒体和传统媒体都得到了良好的发展,二者的融合逐渐成为主要的发展趋势。新媒体和传统媒体拥有不同的优势,同时也存在一定的劣势,只有将二者进行交互和结合,才能实现媒体行业的有序发展。基于此,本文先简单介绍了传统媒体与新媒体,并提出几点二者交互与结合的方法。  关键词:传统媒体;新媒体;交互;结合  如今,互联网正在快速发展,信息的传播发生了较大的改变,我国逐渐进入
期刊