基于分布式Docker群集的招聘网站职位数据持续爬取和分析

来源 :浙江万里学院学报 | 被引量 : 0次 | 上传用户:big_moth123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多大型在线求职平台由于招聘信息不统一,求职者难以在丰富冗余的求职信息中找到合适精准的信息。利用网页爬虫技术,设计实现了分布式Docker容器群集架构下招聘网站的职位数据持续爬取和分析展示。首先,利用Swarm容器管理工具构建多台物理主机的Docker群集;然后,利用Python的Scarpy框架对主流招聘网站的非结构化职位信息进行持续性分布式网络爬虫,涉及URL地址去重、数据采集、提取和清洗等,产生招聘职位的MYSQL数据库;最后,对求职数据库进行分析挖掘,生成职位数量分布热力图、岗位技能画像和可视化展
其他文献
本文通过光学显微镜和扫描电镜对岩梧桐属Wightia Wall.花粉进行了深入的观察,并与紫葳科和玄参科部分属种作了详尽的比较。结果认为,从花粉的大小等级、萌发孔特征、外壁内
从著名中药白首乌(Cynanchum auricutatum Royle ex Wight)根中分离得到7个C_2(?)体甙。其小4个已知物——wilfosidc C3N (Ⅰ), C1N (Ⅱ), C1G (Ⅲ), K1N (Ⅴ),和另外3个新C_
在竞争日益激烈的知识经济时代,知识储备能力成为衡量组织核心竞争力的重要指标。依托高校图书馆,从知识共享理论出发,针对高校图书馆各维度知识共享所面临的弊端与障碍,构建
本文从单一制造行业资产减值会计数据入手,用理论与具体实例相结合的方法,分析影响企业资产减值行为的因素,指出上市公司资产减值会计在实施中所存在的问题,初步证实在制造业
从滇重楼Paris polyphylla Sm. var. yunnanensis (Fr.) H-M.地上部分分离得到3个甾体皂甙,经光谱测定和化学降解证明其化学结构分别为:偏诺皂甙元3O-α-L-鼠李吡喃糖基(1→2
探讨成纤维细胞生长因子治疗爆震性聋的机制,为临床合理用药提供理论依据.爆震豚鼠后,一组在耳蜗底回钻孔,耳蜗内灌注碱性成纤维细胞生长因子(bFGF),另一组动物肌肉注射bFGF,
文献采访的质量直接关系到图书馆的馆藏质量和馆藏结构,直接影响到图书馆的服务水平。在认真分析影响高校图书馆文献采访工作质量的主要因素后,有针对性地提出了高校图书馆文
结合重点学科导航库建设的实践,探讨了网络信息资源选择在重点学科导航库建设过程中的必要性,重点阐述了资源选择时应该考虑的要素和资源选择方法。
探讨先天性心脏病Ⅱ孔房间隔缺损(ASD)患者是否合并肺动瓣狭窄(PS)的过肺动脉瓣最大血流速度(Vpvmax)界限.超声心动图(TTE)诊断单纯性Ⅱ孔ASD 98例,ASD合并PS 27例,均行心外