论文部分内容阅读
摘 要:由于各种原因,ERP系统中员工技能等级信息缺失、错误较多。借助数据挖掘软件开展技能等级信息核查,借助CRISP-DM标准的六个数据挖掘环节(业务理解、数据理解、数据准备、建模、评估、部署)进行数据挖掘,依据原劳动和社会保障部印发的《职业技能鉴定考务管理编码方案》中对职业资格证书编码的规定,对证书编码进行逻辑校验。最后,对核查过程中发现的不符合要求(不完整、不准确)的技能等级信息记录进行标识,进行重点核查,进而大大减轻工作量、提高准确程度。
关键词:数据挖掘 信息核查 计算机技术 软件
中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2015)05(b)-0030-02
为提高ERP系统中人员技能等级信息的完整性和准确性,我们借助数据挖掘软件开展ERP技能等级信息数据核查。在核查过程中,我们借助Clementine软件,大大提高了工作效率。
Clementine是SPSS公司开发的一款著名且非常实用的数据挖掘软件,它提供了可视化、功能强大且易用的数据挖掘平台,将聚类、决策树、神经网络、关联规则等一系列数据处理程序或技术整合成相互独立的模块,并集成在可视化图形界面中。用户在建立数据挖掘模型过程中只需把不同类型、功能各异的节点按照一定的顺序连接在一起即可,简单易用。由于不需要编程就可以完成数据挖掘模型的建立工作,用户可以将更多的精力集中在拟具体解决的业务问题上,而不是工具软件的使用上。
Clementine数据挖掘流程完全支持CRISP-DM标准。CRISP-DM将一个数据挖掘生命周期分成六个阶段:业务理解、数据理解、数据准备、建模、评估、部署。
下面,我们按照CRISP-DM标准,逐步开展技能等级信息核查。先通过Clementine选出有疑问的记录,对具体有疑问的证书信息,再与证书颁发机构发布信息逐一核对。
1 业务理解
开展技能等级信息核查,主要是对ERP系统维护的技能等级信息完整性、准确性进行核查。其中:⑴完整性:主要就所维护的技能等级信息中技能鉴定工种名称、工种编码、资格等级、证书编号、批准单位、批准日期等6个信息项是否完整就行判断;⑵准确性:主要依据原劳动和社会保障部印发的《职业技能鉴定考务管理编码方案》中对职业资格证书编码的规定,对2001年以后取得的证书编码进行证书核发年份、鉴定机构、证书类别(等级)、证书编号是否重复等逻辑校验;⑶在准确性判断的基础上,对个别证书通过与鉴定机构确认,进一步确定其准确性。核查过程中度不符合要求(不完整、不准确)的技能等级信息记录进行标识,要求证书持有人提供佐证材料进行确认。为便于业务理解,我们对技能等级信息核查流程进行了梳理。详见图2
2 数据理解
从ERP系统中导出的人员技能等级信息项有:人员号、人事子范围、姓名、开始日期、结束日期、申报年度、技能鉴定工种名称、工种代码、资格等级、证书编号、批准单位、批准日期、取得方式、是否最高技能等级等字段信息,筛选出技能鉴定工种名称、工种编码、资格等级、证书编号、批准单位、批准日期、申报年度等7個信息项进行完整性判断,再对证书核发年份、鉴定机构、证书类别(等级)等进行证书编码规则校验。
3 数据准备
在获得人员技能等级有关信息数据后,过滤掉人员号、人事子范围、姓名、开始日期、结束日期、申报年度、取得方式、是否最高技能等级等字段信息,筛选出技能鉴定工种名称、工种编码、资格等级、证书编号、批准单位、批准日期、申报年度等7个信息项。为便于比较,需将技能等级字段、证号等字符型字段信息转换为整数型,同时增加用于保存“是否特有工种”、“证号是否重复”、“结论”等用于保存判断结果字段,并初始化为空字符。
4 建模
根据技能等级信息核查流程,我们建立了Clementine流文件。
在主流程中,我们使用了两个超级节点,分别进行证书编号是否重复判断、批准单位是否准确判断。在“证书编号是否重复判断”流程中:首先将字符型字段“证书编号”转换为整数型字段“新证号”,对“新证号”进行升序排序,判断前后两个记录的“新证号”是否相等(相减是否为零),相等的则在“结论”字段标注“证号重复”;接着再对“新证号”进行降序排序,同样如果前后两个记录的“新证号”相等,也在“结论”字段相应标注“证号重复”。
在“批准单位是否准确”判断流程中,首先选择字段“批准单位”为空的记录,在“结论”字段标注“批准单位为空”;接着,依次选取“批准单位”为“电力行业职业技能鉴定指导中心”(以下简称行业指导中心)、“福建省职业技能鉴定指导中心”(以下简称省指导中心)、“福建省电力行业职业技能鉴定中心”(以下简称鉴定中心)的记录,进行证号与鉴定机构识别代码、鉴定机构序号编码一致性判断,如不一致,则在“结论”字段标注“批准单位信息有误”;最后,对批准单位为其它情况的记录,在“结论”字段标注“批准单位不准确”。
5 评估
在Clementine执行技能等级信息核查流程,以往在Excel中每次需要4、5个小时才能完成核查工作的,Clementine仅用了15秒就生成核查结果,10269条员工技能等级信息记录中共有5506条记录不符合核查要求。其中绝大部分为未按要求维护造成,如批准日期为空的记录就有1802条、申报年度为空的记录有2262个。
6 部署
从“输出”表中导出所有记录到Excel,发给各单位进行核对。
7 结语
从上面的数据挖掘过程可以看出,Clementine数据流对某个数据的处理思路和excel或编程其实是一样的,不同的是,Clementine将任务流程化,一个节点对应一个处理,数据源或者处理字段有什么变动,只要在界面上修改节点设置即可,而不必去重复一些无谓的操作。如为减少调试时间,提高效率,可以在流程中增加样本节点,在调试阶段仅对10%或20%的记录进行核查。对于需要多种规则校验且需要重复开展的工作,使用Clementine可以大大提高运行效率。它要比excel更易用更高效,而且处理方法有重用性,即这次构建的数据流经保存后可在下一个类似任务中稍做修改便可使用,或者一条数据流可以支持相似数据的分析。
参考文献
[1] Clementinea 12.0 Clementine Users Guide[Z].
[2] 张雪英.国外先进数据挖掘工具的比较分析[J].计算机工程,2003,29(16):1-3.
[3] (加)Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2006.
关键词:数据挖掘 信息核查 计算机技术 软件
中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2015)05(b)-0030-02
为提高ERP系统中人员技能等级信息的完整性和准确性,我们借助数据挖掘软件开展ERP技能等级信息数据核查。在核查过程中,我们借助Clementine软件,大大提高了工作效率。
Clementine是SPSS公司开发的一款著名且非常实用的数据挖掘软件,它提供了可视化、功能强大且易用的数据挖掘平台,将聚类、决策树、神经网络、关联规则等一系列数据处理程序或技术整合成相互独立的模块,并集成在可视化图形界面中。用户在建立数据挖掘模型过程中只需把不同类型、功能各异的节点按照一定的顺序连接在一起即可,简单易用。由于不需要编程就可以完成数据挖掘模型的建立工作,用户可以将更多的精力集中在拟具体解决的业务问题上,而不是工具软件的使用上。
Clementine数据挖掘流程完全支持CRISP-DM标准。CRISP-DM将一个数据挖掘生命周期分成六个阶段:业务理解、数据理解、数据准备、建模、评估、部署。
下面,我们按照CRISP-DM标准,逐步开展技能等级信息核查。先通过Clementine选出有疑问的记录,对具体有疑问的证书信息,再与证书颁发机构发布信息逐一核对。
1 业务理解
开展技能等级信息核查,主要是对ERP系统维护的技能等级信息完整性、准确性进行核查。其中:⑴完整性:主要就所维护的技能等级信息中技能鉴定工种名称、工种编码、资格等级、证书编号、批准单位、批准日期等6个信息项是否完整就行判断;⑵准确性:主要依据原劳动和社会保障部印发的《职业技能鉴定考务管理编码方案》中对职业资格证书编码的规定,对2001年以后取得的证书编码进行证书核发年份、鉴定机构、证书类别(等级)、证书编号是否重复等逻辑校验;⑶在准确性判断的基础上,对个别证书通过与鉴定机构确认,进一步确定其准确性。核查过程中度不符合要求(不完整、不准确)的技能等级信息记录进行标识,要求证书持有人提供佐证材料进行确认。为便于业务理解,我们对技能等级信息核查流程进行了梳理。详见图2
2 数据理解
从ERP系统中导出的人员技能等级信息项有:人员号、人事子范围、姓名、开始日期、结束日期、申报年度、技能鉴定工种名称、工种代码、资格等级、证书编号、批准单位、批准日期、取得方式、是否最高技能等级等字段信息,筛选出技能鉴定工种名称、工种编码、资格等级、证书编号、批准单位、批准日期、申报年度等7個信息项进行完整性判断,再对证书核发年份、鉴定机构、证书类别(等级)等进行证书编码规则校验。
3 数据准备
在获得人员技能等级有关信息数据后,过滤掉人员号、人事子范围、姓名、开始日期、结束日期、申报年度、取得方式、是否最高技能等级等字段信息,筛选出技能鉴定工种名称、工种编码、资格等级、证书编号、批准单位、批准日期、申报年度等7个信息项。为便于比较,需将技能等级字段、证号等字符型字段信息转换为整数型,同时增加用于保存“是否特有工种”、“证号是否重复”、“结论”等用于保存判断结果字段,并初始化为空字符。
4 建模
根据技能等级信息核查流程,我们建立了Clementine流文件。
在主流程中,我们使用了两个超级节点,分别进行证书编号是否重复判断、批准单位是否准确判断。在“证书编号是否重复判断”流程中:首先将字符型字段“证书编号”转换为整数型字段“新证号”,对“新证号”进行升序排序,判断前后两个记录的“新证号”是否相等(相减是否为零),相等的则在“结论”字段标注“证号重复”;接着再对“新证号”进行降序排序,同样如果前后两个记录的“新证号”相等,也在“结论”字段相应标注“证号重复”。
在“批准单位是否准确”判断流程中,首先选择字段“批准单位”为空的记录,在“结论”字段标注“批准单位为空”;接着,依次选取“批准单位”为“电力行业职业技能鉴定指导中心”(以下简称行业指导中心)、“福建省职业技能鉴定指导中心”(以下简称省指导中心)、“福建省电力行业职业技能鉴定中心”(以下简称鉴定中心)的记录,进行证号与鉴定机构识别代码、鉴定机构序号编码一致性判断,如不一致,则在“结论”字段标注“批准单位信息有误”;最后,对批准单位为其它情况的记录,在“结论”字段标注“批准单位不准确”。
5 评估
在Clementine执行技能等级信息核查流程,以往在Excel中每次需要4、5个小时才能完成核查工作的,Clementine仅用了15秒就生成核查结果,10269条员工技能等级信息记录中共有5506条记录不符合核查要求。其中绝大部分为未按要求维护造成,如批准日期为空的记录就有1802条、申报年度为空的记录有2262个。
6 部署
从“输出”表中导出所有记录到Excel,发给各单位进行核对。
7 结语
从上面的数据挖掘过程可以看出,Clementine数据流对某个数据的处理思路和excel或编程其实是一样的,不同的是,Clementine将任务流程化,一个节点对应一个处理,数据源或者处理字段有什么变动,只要在界面上修改节点设置即可,而不必去重复一些无谓的操作。如为减少调试时间,提高效率,可以在流程中增加样本节点,在调试阶段仅对10%或20%的记录进行核查。对于需要多种规则校验且需要重复开展的工作,使用Clementine可以大大提高运行效率。它要比excel更易用更高效,而且处理方法有重用性,即这次构建的数据流经保存后可在下一个类似任务中稍做修改便可使用,或者一条数据流可以支持相似数据的分析。
参考文献
[1] Clementinea 12.0 Clementine Users Guide[Z].
[2] 张雪英.国外先进数据挖掘工具的比较分析[J].计算机工程,2003,29(16):1-3.
[3] (加)Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2006.