基于Web招聘信息的专业技能需求文本挖掘

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:fattingmore
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:文章使用八爪鱼采集器在智联招聘网上采集了成都范围内有关计算机科学与技术专业工作招聘的技能要求,通过数据预处理、关联规则来处理采集到的大量数据,挖掘出各职位和对应能力要求之间的关联程度,以便此专业学生找工作时了解自己应该掌握的技能侧重点以及学校对工作单位所需要的人才的技能进行有针对性的培养。
  关键词:招聘信息;文本挖掘;关联规则
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)06-0001-02
  目前很多高校呈现出培养的毕业生掌握的技能和企业所需要的人才掌握的技能无法匹配,导致大量大学生毕业却无法和企业招聘条件接轨,没有实际操作能力只能去各种技术补习机构培训后才能找到心仪的工作,企业也无法快速找到和自己需求匹配的毕业生们。我们各个高校可以从这些招聘信息中提炼出自己学校有关专业的就业岗位的用人需求,设置对口的专业课程,以此来为用人单位培养对口人才;同时也解决了企业难以找到对口毕业生的难题。本文对“智联招聘”成都地区计算机科学与技术专业相关工作岗位的招聘信息进行了挖掘,并且提炼出这些岗位招聘信息里面出现频率较高的技能做了统计,以便学校为本专业的学生设置合适的课程。
  1数据挖掘处理
  1.1数据来源
  本文利用八爪鱼采集器于2017年12月对智联招聘网近一个月成都范围内各工作岗位对计算机科学与技术专业人才所需要掌握的技能等各方面进行采集,总共得到招聘信息11205条,其中每条招聘信息包括职位名称、能力要求、知识要求等内容,通过数据库函数对数据进行去重处理,最终得到8248条可用数据。
  1.2数据预处理[1]
  采集的数据中包含大量文本信息,所以通过数据库函数对这些文本进行数据预处理。
  1.2.1 循环删除,避免日志文件暴增
  循环删除的伪代码如下,该方法仍有一些局限性,耗时过长,并且会长期使数据库处于简单恢复模式下:
  --ALTER DATABASE database_name SET RECOVERY SIMPLE ; while @index<@EndIndex begin delete table_name where index<=@index; set @index =@Increment end
  1.2.2 将数据插入到临时表中,把原表drop
  把原始表中的数据通过select语句筛选出来,然后批量插入导新表中,这种方式利用了大容量日志(Bulk Logged)操作的优势。由于 SELECT INTO,INSERT SELECT 是大容量日志操作,select命令不会产生大量日志文件,因此,执行插入比执行删除的效率更高。最后,执行drop命令,删除整个原始表,几乎不消耗任何时间。
  --ALTER DATABASE database_name SET RECOVERY BULK_LOGGED ; insert into new_table select column_list from original_table where filter_retain drop table original_table
  把临时表重命名,执行 sp_rename 或手动重命名,其中 @objtype 参数是可选的,默认值是NULL,对表重命名,设置参数 @objtype=’object’:
  sp_rename [ @objname = ] ’object_name’ , [ @newname = ] ’new_name’ [ , [ @objtype = ] ’object_type’ ]
  1.2.3 对分区表执行分区转移操作
  SQL Server的分区表实际上是一系列物理上独立存储的“表”(也叫分区)构成的。被剥离的分区,通过drop命令删除,这种方法,耗时最短,资源消耗最小,效率最高。
  alter table original_table SWITCH PARTITION source_partition_number TO temporary_table drop table temporary_table
  1.3應用关联规则处理数据
  2结语
  综合数据采集及关联规则的结果,我们可以找到计算机科学与技术专业学生毕业后在成都范围内就职岗位的用人需求,这样有助于同学们根据自己毕业后理想的工作岗位进行课程的重点学习,也有助于学院根据此结果对课程设置进行调整以适应社会用人单位需求。而且文章较文献[5]具有更强的针对性,具体落实到某一个专业,而不是参杂了很多其他应用例子,给读者直截了当的印象。这个基于Web招聘信息的计算机科学与技术专业人才技能需求挖掘成功后,不仅针对计算机科学与技术这个专业,或者成都这个范围内的工作岗位用人需求,也可以针对其他专业以及全国各地的工作岗位用人需求,以解决现存的这个产出和需求对接不上的严峻问题。在各个高校的“产出”与工作单位的“需求”的对接工作上可以起到很好的衔接作用。
  参考文献:
  [1] 悦光阴.大数据操作删除去重.http://www.cnblogs.com/ljhdo/
  [2] 刘畅.基于Web文本挖掘的数据分析岗位需求研究[J].中国管理信息化,2018,21(10):76-79.
  [3] 李玉洁,杨威.浅析行动导向教学法中数据挖掘的应用[J].知识经济,2016(11):97.
  [4] 王小玉,王亚东,冯丽.关联规则的挖掘[J].信息技术,2003(1):55-57.
  [5] 钟晓旭.基于Web招聘信息的文本挖掘系统研究[D].合肥:合肥工业大学,2010.
  .
其他文献
期刊
1内部会计控制的概念及其在目前种子企业管理中的重要作用rn内部会计控制是指单位为了保护资产的安全、完整,提高会计信息质量,确保有关法律法规和规章制度及单位经营管理方
期刊
改革开放以来,我国经济持续快速增长,然而,高投入、高消耗、高排放的传统经济增长方式使我国经济增长与资源环境之间的矛盾日益凸显。如何在资源环境的硬约束下,选择一条社会
在程序中加入多媒体将使应用变得更为活泼生动.多媒体应用程序设计可以采取多种编程工具,VisualBasic作为一个典型的可视化编程工具,简单易用,可以方便快捷的设计多媒体应用
放射线阻光造影剂引起血浆内组织胺浓度增高早已被人们熟悉。造影剂引起的反应同注射组织胺的反应特征类似,虽仍不知其真正原因,但这种类似组织胺的反应只能是组织胺所引起
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
巴塞尔协议自1988年签订之日,就为全球银行的资本监管和银行系统风险的降低而努力。2004年的新巴塞尔资本协议在原协议的基础上改进了管理方法和理念,形成更为科学的三支柱——
当前世界紧密相连而又高度竞争,长期以来,各国都不遗余力地追求国际收支的平衡甚至盈余。而根据传统经济学理论,汇率作为价格体系的重要组成部分,其变动对一国的贸易收支有着深远
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥