面向校园招聘主题的分布式爬虫系统的设计与实现

来源 :大连交通大学 | 被引量 : 1次 | 上传用户:xingli1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,高校毕业生规模的不断扩大,大学生的就业问题不容忽视,社会对此问题给予了广泛关注。目前网络上招聘网站不胜枚举,很多招聘信息存在重复冗余,查询效率低,信息可靠性低的问题,对毕业生来说,需要花费大量的时间甄别虚假信息、筛选重复信息,影响求职效率。本文通过研究分析爬虫系统相关技术,在深入了解相关技术算法的基础上,搭建Hadoop分布式运行环境,运行爬取校园招聘相关职位信息,以解决招聘信息爬取效率低的问题,并且满足面向校园招聘这一主题;通过并行爬取三个招聘网站校园招聘信息以解决校园招聘职位信息分布散且杂的问题;通过研究基于正则化的过滤方法筛选过滤主题不相关URL链接,以达到将爬取范围限制到这三个招聘网站域名范围内;通过研究基于标题特征词文本相似度的计算方式降低虚假招聘信息的PageRank评分:最终达到招聘信息冗余度较低、覆盖信息较为全面的目的,并且提供了简洁、易于操作的用户查询交互接口。论文主要工作如下:(1)面向校园招聘主题的分布式爬虫系统设计。为获取校园招聘信息,需要对各招聘网站的校园招聘信息链接进行爬取;采用分布式计算框架对校园招聘信息进行高效爬取;为实现面向校园招聘爬取这一主题,需要对爬取的URL链接进行过滤;为方便用户查询校园招聘信息,需要提供搜索查询服务功能。根据上述功能需求,系统模块主要划分为爬虫模块、索引模块和检索模块。(2)面向校园招聘主题的分布式爬虫系统实现。爬虫模块选用Nutch开源爬虫框架,采用基于正则化的过滤方法进行URL筛选,并利用其插件机制对其进行二次开发,实现基于标题特征词文本相似度的职位信息可靠性评分。索引模块采用Solr框架对爬取到的校园招聘数据建立索引,并配置了 IK-Analyzer中文分词器对校园招聘网页本文执行预处理,以提高查询准确度。检索模块设计实现基于JSP+CSS的用户交互界面,方便用户进行检索查询。
其他文献
民俗村或民族村民俗再造及民俗旅游中的民俗风情展示问题一直是学界探讨的对象,或认为它是伪民俗,对民俗文化有负面影响;或认为是表演的民俗,有虚拟和夸大的成分;或认为民族
窦桂梅老师是一位孜孜不倦、勤写勤学的人,在她的身上,有不怕吃苦、敢于钻研的精神。她不但能自己学习,还培养其他教师一起进步。最重要的是,她敢于放下世俗的包袱,一心用新
目的:探究延迟断脐在新生儿脐部护理中的应用效果。方法:选取笔者所在医院分娩的180例新生儿为研究对象,随机分为两组,对照组120例,观察组60例。对照组采用常规的早断脐法,观察
合理用药,是指依据当代系统的医学、药学管理学知识,明智地使用药物,以符合用药安全、有效、经济的要求,其主要原则是尽量少用药,尽可能不联合用药,尽可能不用贵重药品,合理
期刊
写作的根基是阅读,不懂阅读就不会表达。语文又是小学阶段一门重要的学科,而写作是语文教学工作中的重点,能体现学生的语文综合能力,衡量小学生语文素养的一个重要标准就是考
消防水泵房作为每个工程消防供水的心脏,其合理的布局和设计直接影响整个消防系统的正常使用。结合《消防给水及消火栓系统技术规范》(GB 50974-2014)的规定,简述了消防水泵
Hadoop是一个能够对大量数据进行分布式处理的软件框架,它以一种可靠、高效、可伸缩的方式进行数据处理,能有效处理海量的物流数据。据此,以锦程物流网、中国物通网等物流企
随着我国经济的发展和进步,人们生活质量的提升,促进了我国养猪事业的大力发展,但是影响其发展的重要的一个因素就是猪疾病,一是患有猪疾病的猪人类不能食用,使得养殖户或者是养殖
在全国深入开展的纪念中国人民抗日战争胜利60周年和世界反法西斯战争胜利60周年活动中,中国兵器装备集团公司紧扣“弘扬抗战精神,促进集团发展”这条主线,做到纪念活动与保持共
根据当前我国煤系矿产地质工作面临的任务和发展趋势,从煤盆地动力学过程角度,首次提出了“煤系矿产地质系统”的初步概念。该系统的研究对象包含内层煤层综合矿产、中层煤系