借助数据挖掘软件开展技能等级信息核查

来源 :科技资讯 | 被引量 : 0次 | 上传用户:meiwanmeiliao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:由于各种原因,ERP系统中员工技能等级信息缺失、错误较多。借助数据挖掘软件开展技能等级信息核查,借助CRISP-DM标准的六个数据挖掘环节(业务理解、数据理解、数据准备、建模、评估、部署)进行数据挖掘,依据原劳动和社会保障部印发的《职业技能鉴定考务管理编码方案》中对职业资格证书编码的规定,对证书编码进行逻辑校验。最后,对核查过程中发现的不符合要求(不完整、不准确)的技能等级信息记录进行标识,进行重点核查,进而大大减轻工作量、提高准确程度。
  关键词:数据挖掘 信息核查 计算机技术 软件
  中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2015)05(b)-0030-02
  为提高ERP系统中人员技能等级信息的完整性和准确性,我们借助数据挖掘软件开展ERP技能等级信息数据核查。在核查过程中,我们借助Clementine软件,大大提高了工作效率。
  Clementine是SPSS公司开发的一款著名且非常实用的数据挖掘软件,它提供了可视化、功能强大且易用的数据挖掘平台,将聚类、决策树、神经网络、关联规则等一系列数据处理程序或技术整合成相互独立的模块,并集成在可视化图形界面中。用户在建立数据挖掘模型过程中只需把不同类型、功能各异的节点按照一定的顺序连接在一起即可,简单易用。由于不需要编程就可以完成数据挖掘模型的建立工作,用户可以将更多的精力集中在拟具体解决的业务问题上,而不是工具软件的使用上。
  Clementine数据挖掘流程完全支持CRISP-DM标准。CRISP-DM将一个数据挖掘生命周期分成六个阶段:业务理解、数据理解、数据准备、建模、评估、部署。
  下面,我们按照CRISP-DM标准,逐步开展技能等级信息核查。先通过Clementine选出有疑问的记录,对具体有疑问的证书信息,再与证书颁发机构发布信息逐一核对。
  1 业务理解
  开展技能等级信息核查,主要是对ERP系统维护的技能等级信息完整性、准确性进行核查。其中:⑴完整性:主要就所维护的技能等级信息中技能鉴定工种名称、工种编码、资格等级、证书编号、批准单位、批准日期等6个信息项是否完整就行判断;⑵准确性:主要依据原劳动和社会保障部印发的《职业技能鉴定考务管理编码方案》中对职业资格证书编码的规定,对2001年以后取得的证书编码进行证书核发年份、鉴定机构、证书类别(等级)、证书编号是否重复等逻辑校验;⑶在准确性判断的基础上,对个别证书通过与鉴定机构确认,进一步确定其准确性。核查过程中度不符合要求(不完整、不准确)的技能等级信息记录进行标识,要求证书持有人提供佐证材料进行确认。为便于业务理解,我们对技能等级信息核查流程进行了梳理。详见图2
  2 数据理解
  从ERP系统中导出的人员技能等级信息项有:人员号、人事子范围、姓名、开始日期、结束日期、申报年度、技能鉴定工种名称、工种代码、资格等级、证书编号、批准单位、批准日期、取得方式、是否最高技能等级等字段信息,筛选出技能鉴定工种名称、工种编码、资格等级、证书编号、批准单位、批准日期、申报年度等7個信息项进行完整性判断,再对证书核发年份、鉴定机构、证书类别(等级)等进行证书编码规则校验。
  3 数据准备
  在获得人员技能等级有关信息数据后,过滤掉人员号、人事子范围、姓名、开始日期、结束日期、申报年度、取得方式、是否最高技能等级等字段信息,筛选出技能鉴定工种名称、工种编码、资格等级、证书编号、批准单位、批准日期、申报年度等7个信息项。为便于比较,需将技能等级字段、证号等字符型字段信息转换为整数型,同时增加用于保存“是否特有工种”、“证号是否重复”、“结论”等用于保存判断结果字段,并初始化为空字符。
  4 建模
  根据技能等级信息核查流程,我们建立了Clementine流文件。
  在主流程中,我们使用了两个超级节点,分别进行证书编号是否重复判断、批准单位是否准确判断。在“证书编号是否重复判断”流程中:首先将字符型字段“证书编号”转换为整数型字段“新证号”,对“新证号”进行升序排序,判断前后两个记录的“新证号”是否相等(相减是否为零),相等的则在“结论”字段标注“证号重复”;接着再对“新证号”进行降序排序,同样如果前后两个记录的“新证号”相等,也在“结论”字段相应标注“证号重复”。
  在“批准单位是否准确”判断流程中,首先选择字段“批准单位”为空的记录,在“结论”字段标注“批准单位为空”;接着,依次选取“批准单位”为“电力行业职业技能鉴定指导中心”(以下简称行业指导中心)、“福建省职业技能鉴定指导中心”(以下简称省指导中心)、“福建省电力行业职业技能鉴定中心”(以下简称鉴定中心)的记录,进行证号与鉴定机构识别代码、鉴定机构序号编码一致性判断,如不一致,则在“结论”字段标注“批准单位信息有误”;最后,对批准单位为其它情况的记录,在“结论”字段标注“批准单位不准确”。
  5 评估
  在Clementine执行技能等级信息核查流程,以往在Excel中每次需要4、5个小时才能完成核查工作的,Clementine仅用了15秒就生成核查结果,10269条员工技能等级信息记录中共有5506条记录不符合核查要求。其中绝大部分为未按要求维护造成,如批准日期为空的记录就有1802条、申报年度为空的记录有2262个。
  6 部署
  从“输出”表中导出所有记录到Excel,发给各单位进行核对。
  7 结语
  从上面的数据挖掘过程可以看出,Clementine数据流对某个数据的处理思路和excel或编程其实是一样的,不同的是,Clementine将任务流程化,一个节点对应一个处理,数据源或者处理字段有什么变动,只要在界面上修改节点设置即可,而不必去重复一些无谓的操作。如为减少调试时间,提高效率,可以在流程中增加样本节点,在调试阶段仅对10%或20%的记录进行核查。对于需要多种规则校验且需要重复开展的工作,使用Clementine可以大大提高运行效率。它要比excel更易用更高效,而且处理方法有重用性,即这次构建的数据流经保存后可在下一个类似任务中稍做修改便可使用,或者一条数据流可以支持相似数据的分析。
  参考文献
  [1] Clementinea 12.0 Clementine Users Guide[Z].
  [2] 张雪英.国外先进数据挖掘工具的比较分析[J].计算机工程,2003,29(16):1-3.
  [3] (加)Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2006.
其他文献
党的十七大首次提出了“建设生态文明”的新要求,是党的科学发展观的重要理论创新。饶河作为生态口岸县份,在全面建设小康社会过程中,必须坚定不移地走生产发展、生活富裕、生态
该文通过对教学方法和成绩评定方法的改革创新,把创新意识的培养和创新思维的养成融入教育教学全过程,通过教学改革实现了对难教难学课程的教学突破,调动了学生的学习积极性,
<正> 能源(包括电能)短缺,价格上涨,要求各矿区变电所开发与安装综合控制系统。用微机控制的各种综合监控系统有助于实现负荷自动快速响应控制,不仅可提高其经济效益,而且可
煤炭部将煤矿办电作为煤炭工业新的经济增长点,列为四大起步工程。根据最新资料,就如何落实“九五”办电计划和2010年发展规划,提出5条建议,它们是:加快办电立英的进程,立足自行解决电源
介绍了美国科罗拉多州20英里矿在不稳定破碎顶板条件下的综采工作面,使用英国安德森公司新型Electra-1000电牵引采煤机快速割煤达25m/min,创班产16307t,日产28801t,月产38.5万t纪录,实现高产高效的技术经验。对采煤机的结
目前宾馆中太阳能热水器普遍存在着受季节和天气等因素的影响、提供的热量不够、不能够实现全年正常使用以及利用电能辅助加热存在的安全隐患.设计了一个可以对空气能和太阳
<正> 1煤质均衡控制概念煤质均衡俗称配煤,就是规划与管理煤炭质量,旨在提高被开采煤层及其加工产品质量的均匀性和稳定性,充分挖掘企业活力,合理利用煤炭资源,提高矿山经济
供电所是供电公司负责电费回收管理的最基层单位.每个供电所管辖各类用户3万-4万户.日处理用户电费2000户左右。几十年来,供电所的电费管理工作,一直使用手工方式管理,工作任务繁
党的十六届三中全会《关于完善社会主义市场经济体制若干问题的决定》提出:“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展。”这就明确提出了科学发展观并高度概括了它的基本内涵。科学发展观的内容博大精深,涉及经济、社会和人的全面发展,涉及资源环境与经济社会的协调发展,涉及当前和今后发展、当代和世代永续发展,涉及城乡之间、区域之间、国内外之间发展等各个方面。在科学发展观内容的各个方面,自始至终贯穿着一条红线,它也是科学发展观的核心和根本原则,那就是“以人为本”。一坚持“以人为本”是历史唯