论文部分内容阅读
近年来,高校毕业生规模的不断扩大,大学生的就业问题不容忽视,社会对此问题给予了广泛关注。目前网络上招聘网站不胜枚举,很多招聘信息存在重复冗余,查询效率低,信息可靠性低的问题,对毕业生来说,需要花费大量的时间甄别虚假信息、筛选重复信息,影响求职效率。本文通过研究分析爬虫系统相关技术,在深入了解相关技术算法的基础上,搭建Hadoop分布式运行环境,运行爬取校园招聘相关职位信息,以解决招聘信息爬取效率低的问题,并且满足面向校园招聘这一主题;通过并行爬取三个招聘网站校园招聘信息以解决校园招聘职位信息分布散且杂的问题;通过研究基于正则化的过滤方法筛选过滤主题不相关URL链接,以达到将爬取范围限制到这三个招聘网站域名范围内;通过研究基于标题特征词文本相似度的计算方式降低虚假招聘信息的PageRank评分:最终达到招聘信息冗余度较低、覆盖信息较为全面的目的,并且提供了简洁、易于操作的用户查询交互接口。论文主要工作如下:(1)面向校园招聘主题的分布式爬虫系统设计。为获取校园招聘信息,需要对各招聘网站的校园招聘信息链接进行爬取;采用分布式计算框架对校园招聘信息进行高效爬取;为实现面向校园招聘爬取这一主题,需要对爬取的URL链接进行过滤;为方便用户查询校园招聘信息,需要提供搜索查询服务功能。根据上述功能需求,系统模块主要划分为爬虫模块、索引模块和检索模块。(2)面向校园招聘主题的分布式爬虫系统实现。爬虫模块选用Nutch开源爬虫框架,采用基于正则化的过滤方法进行URL筛选,并利用其插件机制对其进行二次开发,实现基于标题特征词文本相似度的职位信息可靠性评分。索引模块采用Solr框架对爬取到的校园招聘数据建立索引,并配置了 IK-Analyzer中文分词器对校园招聘网页本文执行预处理,以提高查询准确度。检索模块设计实现基于JSP+CSS的用户交互界面,方便用户进行检索查询。