基于多种机器学习算法的员工离职预测模型对比及解释研究

来源 :商讯·公司金融 | 被引量 : 0次 | 上传用户：giwood

【摘要】

：

【作者】

：

乔源陈梦帆

【出处】

：

商讯·公司金融

【发表日期】

：

2021年27期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　作者简介：乔源（2000— ），男，汉族，辽宁大连人。主要研究方向：供应链管理。
　　摘要：人才是企业的核心，如何留住人才是人力资源的核心命题。基于此，本文首先建立了员工离职预测指标体系，接着使用7种机器学习方法对员工是否离职进行预测，并从准确率，f1得分，AUC，召回率，敏感度等五个评估指标进行综合评估。实证结果表明：XGBoost算法具有高准确率和稳定性，较其他算法更优良。进而，本文采用cover准则对特征重要性进行了分析，员工是否离职决策更满足社会人假说，员工往往更倾向于追求自我实现和工作的自我契合，企业应优先满足员工社会层面的自我需求，有效防止员工离职。
　　关键词：机器学习算法;员工离职预测;特征重要性
　　互联网时代下，人才流动频繁，核心员工的主动辞职，不仅会给公司正常运营造成影响，降低企业受益，而且会导致客户流失，商业机密泄漏等诸多危害，如何通过历史数据或员工标记准确判断员工的离职倾向是人力资源管理的新研究方向。企业不再满足于探究某一两个变量或者因素和员工的离职的关系，因为员工离职往往是深思熟虑，众多因素有机结合的结果，因此对员工大数据特征进行机器学习显得很有价值。
　　通过收集员工特征大数据对于员工离职的预测不仅是人力资源领域的核心问题，也是机器学习算法研究的重要方向，部分学者侧重某一或几种因素的研究，李扬研究国有企业员工幸福感维度对于员工离职的影响，叶仁荪等研究组织承诺的影响;而大部分学者则从机器学习的角度出发，并不关心内在的因素解释，反而通过大数据机器学习的方式，最快最好地预测员工离职的结果，如刘婷婷选取IBM平台样例数据，运用C4.5决策树预测员工离职倾向，张紫君则采用GBDT算法预测员工离职的问题，更多的是算法的纵向结合或者横向比较。
　　但是目前学界对于离职预测往往仅追求的算法的精度，且所采用的算法大多是黑箱算法，难以直观解释。为进一步提升离职预测模型的性能及可解释性，本文基于IBM数据科学公布的员工离职数据进行分析，横向比较机器学习主流算法，通过预测准确率，f1得分，AUC得分，召回率，敏感度五项指标对模型评价和对比，最后通过性能最优的XGBoost算法以及其特征重要性解释分析员工离职决策的成因，对降低员工离职率，改善企业人才资源配置，提高企业综合绩效等方面具有一定的参考意义。
　　一、变量说明及预处理
　　（一）数据来源与变量选取
　　本文数据来源DataFound平台（https：//www.datafountain.cn）上发布的IBM员工公开数据，数据包括定性和定量数据，选取全数据集33个字段，2000多条数据，具体数据名称及含义如下表1所示：
　　（二）数据预处理
　　首先，本文对数据进行归一化处理：
　　

　　其次，为防止由于最终标签的不均衡导致的误差采用SMOTE方法按照1：1进行均衡采样，SMOTE的原理是：对于少数类样本a，随机选择一个最近邻的样本b，然后从a与b的连线上随机选取一个点c作為新的少数类样本，基本公式如下：
　　首先生成一个0-1之间的随机数：rand（0，1）
　　其次选取一个少类样本X原，并选取其相邻最近样本X相邻，最终通过如下公式：
　　X新=X原+rand（0，1）*（X相邻-X原）
　　使得样本在标签特征是否离职满足处均匀分布。
　　二、研究原理
　　（一）传统机器学习方法
　　本文采用三种传统的机器学习方法：支撑向量机（SVM），其本质是一种线性分类器，是以训练样本为研究对象，通过某种事先选定的关系映射出一个样本的高纬特征空间，并在其中找到一个超平面对样本进行线性分类;决策树（DT）是一种树形分类器，即采用某种标准（如：C4.5，ID3等）通过搜索遍历每一个节点的特征选择，最终获得一种最优分类的过程;逻辑回归（LR）是一种线性分类方法，通过非线性变换的Sigmoid函数，采用梯度下降，或者二阶的步长因子等对样本进行二维空间的线性分类。
　　（二）集成学习方法
　　除了上述传统的机器学习方法外，本文采用四种集成学习的方法：随机森林（Random Forest）随机森林是一种将多棵决策树集成的算法，其中的每一个单元——每棵决策树都是一个分类器，对于一个固定的输入样本，随机森林通过Bagging思想，以一种算法投票的方式，从N棵树会的N个分类结果选出最终的输出，以提升相比于单一树模型的分类结果的准确度;梯度提升树（GBDT）也是一种组合树型算法，以回归树作为基分类器，其核心就在于，每棵树是从先前所有树的残差中来学习，以前模型中损失函数的负梯度值，作为新树的残差来对新树进行优化，具有较好的优化性能。xgbBoost算法是GBDT算法的升级版，其在分类过程中就是不断地添加决策树，通过特征分裂来生成新树，来拟合上次树预测的残差，从而达到优化的效果;LightGBM是一种基于决策树算法的分布式梯度提升框架，每次从当前所有叶子中找到数量较大，分裂增益较大的叶节点，分裂形成新树，如此循环，在xgb基础上有效地减少空间和时间的小号，对cache优化也更加友好。
　　三、实证结果
　　（一）相关性分析
　　进行机器学习算法测试之前，先进行变量相关性分析，结果如下：由图1可知，变量和目标都存在相关性，但双变量之间的相关性都不高，这体现了员工离职往往不是由一个或两个因素决定的，一般来说，离职都是一种深思熟虑之后的决定，说明本文通过大数据机器学习的方法统筹考虑所有变量整体研究具有一定的意义。　　（二）机器学习算法评估对比结果
　　为确保算法比较的准确性，本文采用十折交叉验证的方法，选取预测准确率，f1得分，auc得分，召回率，敏感度五个指标计算指标的均值和方差。预测准确率主要反应训练样本得到的模型对于测试集的拟合情况，即是否有较好的范化性;ROC曲线是在分类模型中，设置不同阈值的性能测量方法，ROC表示概率曲线，AUC表示分离性，二者结合表示所采用分类模型对样本区分的能力;召回率是衡量分类器在数据中所有离职中正确预测的离职的一种度量;敏感度，精度是对做出的肯定预测中有多少是正确的（真实肯定的）度量;F1分数是一种结合了精确度和召回率的度量，数学角度上是两者的特殊算术平均值——谐波均值的数显变现，是精确度和召回率的平衡体现。本文采用五个指标全面地比较各个算法的优劣，对比结果如下表2：
　　通过对比可知：集成学习算法平均显著优于传统的机器学习算法，而在集成学习算法中XGBoost的预测准确性，f1，roc-auc得分，召回率，精准率五个指标的得分都是最高的，这说明XGBoost算法在众多算法中的准确率是最高的。
　　（三）XGBoost评估结果稳定性检验
　　对数据集进行XGBoost集成学习训练，基于利益方对评估结果的期望，使用AUC作为模型优劣评估标准，另外不对超参数进行优化，均使用默认参数。通过进行10次10折交叉实验以验证其准确率和稳定性，共得到10组合计100次训练结果，如下表3所示：
　　从结果可以看出，10组AUC均值均在0.97以上且标准差均小于0.1，这说明了通过使用XGBoost集成学习对员工离职预测具有高准确率和稳健性。可以用来对员工离职情况进行预测。
　　（四）基于cover准则的XGBoost特征重要性
　　cover覆盖度指的是与此指标相关的观测的相对数量。如100个样本m个特征和n棵树，每个特征决定的树的叶节点占总四个特征的占比，一般cover覆盖度越高表示该指标对于整体越重要。
　　在cover准则下，员工离职的选择更偏重社会人假说，员工更像是具有自我追求和自我实现的个体。由图2可知：薪资涨幅（X24）对于员工是否离职的影响程度最大，这体现了员工往往比较关注于自己的实际收入的变化，尤其是每年是否有收入的增长，这主要体现了员工对于自己进步的要求。对比来说，月收入特征并没有排在前面，而薪资涨幅和淡出的收入不同，这是公司对员工这一年表现的一种肯定的体现，也是对员工价值的认可。工作事项、工作满意度和工作时间（X14，X17和X27）也具有显著影响，这三个因素体现的是员工对于自己工作的满意和理解。员工关注于自己在做什么，思考自己做的事情是否有意义，是否满意自己的工作，这些都是员工是否离职的重要因素。
　　四、结语
　　本文研究机器学习视角下对于员工离职率的预测，通过选取五个指标横向对比7种算法，最终结果表明：XGBoost算法具有最好的准确率和范化效果，并通过十次十折稳定性检验，对于员工离职率预测的算法选择具有一定的借鉴意义。同时，采用特征值描述的方法，基于cover准则对XGBoost算法的结果进行阐释，可得，员工是否离职更满足社会人假说，员工往往更倾向于追求自我实现和工作的自我契合。公司不仅要考虑员工的经济视角，也要思考如何满足员工的社会心理需要，如何使员工觉得自己做的工作有意义，每年适当对员工以提升薪酬/福利的方式进行激励，可以有效防止员工离职。
　　参考文献：
　　[1]李佳浩，李昕，褚治广.基于Stacking集成学习的员工离职预测方法[J].辽宁工业大學学报（自然科学版），2021，41（03）：157-160.
　　[2]王志宁.基于XGBoost的员工离职预测及特征分析模型[J].数字技术与应用，2021，39（03）：193-196.
　　[3]张欣瑞，范正芳，陶晓波.大数据在人力资源管理中的应用空间与挑战——基于谷歌与腾讯的对比分析[J].中国人力资源开发，2015（22）：52-57+73
　　[4]赵西萍，刘玲，张长征.员工离职倾向影响因素的多变量分析[J].中国软科学，2003（03）：71-74.
　　[5]李佳浩，李昕，褚治广.基于Stacking集成学习的员工离职预测方法[J].辽宁工业大学学报（自然科学版），2021，41（03）：157-160.
　　[6]李扬.国有企业员工幸福感对离职倾向的影响研究[J].企业改革与管理，2020（20）：53-54.
　　[7]叶仁荪，王玉芹，林泽炎.工作满意度、组织承诺对国企员工离职影响的实证研究[J].管理世界，2005（03）：122-125.
　　[8]刘婷婷.分类器在员工离职预测中的应用[D].南宁：广西大学，2018.
　　[9]张紫君.企业员工的离职预测模型[D].重庆：重庆大学，2018.

其他文献

中小学校固定资产管理探讨

作者简介：熊蔚莹（1988— ），女，汉族，河北保定人。主要研究方向：财务管理。　　摘要：伴随着我国经济社会的迅速发展，国家针对教育事业方面的资金投资力度正在逐年增加，如学校的基础设施设备建设、师资力量的培养等，致使中小学校固定资产规模不断扩大，资产管理成为了学校日常管理工作的重要组成部分。加强固定资产管理、优化资源配置、有效盘活固定资产，是中小学校高效履职的基础。在新《政府会计制度》背景下，文

期刊

房地产行业成本核算存在的问题及对策研究

作者简介：晏妮（1987— ），女，汉族，湖北武汉人。主要研究方向：财务管理。　　摘要：在国家调控的大背景下，降本增效强化成本核算显得越来越重要。因此，文章从成本核算的相关理论出发，探讨了房地产企业项目成本核算对象及成本核算项目，分析房地产行业在成本核算过程中存在的问题，并给出了相应的改进对策，为提高房地产行业的成本核算质量提供借鉴。　　关键词：房地产企业;成本核算;成本管理　　成本核算作为成本

期刊

财税改革对地方经济影响研究

作者简介：袁鹏（1972-），男，汉族，山东邹平人。主要研究方向：财税。摘要：为保证国家与社会稳步发展，更好适应经济发展各项需求，财税改革长期受到各界重视，相关研究也属于业界关注焦点。基于此，本文将简单分析财税改革对地方经济的影响、财税改革现存不足，并深入探讨基于财税改革的地方经济发展措施，以供相关研究人员参考。　　关键词：财税改革;地方经济;经济发展方式;减税降费　　十三五期间的财税改革重点涉及

期刊

高职院校人力资源管理视域下兼职教师队伍优化研究

作者简介：佟珣（1993— ），女，汉族，贵州安顺。研究方向：人力资源管理、企业管理。　　摘要：当前，世界上最先进的职教模式是德国的双元制职业教育，这种职教模式能够使企业的发展和高职院校的教育事业呈现出共生的关系，这也是德国经济发展的关键。现阶段，双元制职业教育在德国的教育体系中占据着不可忽视的作用，不仅由此丰富了高职院校的办学条件，为高职院校职业人才的培养提供了有利的条件，而且进入高职院校的兼职

期刊

事业单位人力资源管理效率提升以及绩效考核策略探讨

作者简介：王立（1982— ），女，汉族，山西大同人，研究生。主要研究方向：经济。　　摘要：当前，在激烈的市场竞争中，想要从激烈的竞争中脱颖而出，毋庸置疑的是，需要在人力资源管理上做出卓越的改进，科学的关于人力资源管理模式，建立起可持续发展性的管理活动这就是我国事业单位组织开展相关活动的主要依据，目前我国事业单位人力资源管理的巨大的任务就是要提高相关工作的效率。文章首先从四个方面对我国事业单位人

期刊

直播助农消费行为研究

作者简介：康译（1999--），男，汉族，陕西榆林人。主要研究方向：企业信息化与市场调研分析。　　摘要：随着疫情的爆发，在线购物却没有打烊。电商行业的发展突飞猛进，吸引了各年龄段的消费者。直播助农以创新的方式帮助农民解决了因为市场信息滞后、农产品知名度不高、宣传不足所带来的农产品积压问题，同时解决这些问题对于直播助农未来的发展和模式上的改进有着重要的意义。　　关键词：疫情，电商平台，助农，调研　　

期刊

基于GIS区域生态系统服务价值演变特性研究--以南水北调中线水源区为例

生态系统服务是人类能够从自然界获取自身生存和发展所需的各类资源，亦代表着人类的福祉。丹江口水库作为中国南水北调中线工程的重要水源区，通过对丹江口水库所在区域的土地利用与生态系统服务进行定量分析与评估，对于推动该区域自然资源可持续利用具有关键意义。
　　本文以湖北省丹江口市与河南省淅川县为研究区，基于利用RS和ArcGIS技术处理多时段、多平台的TM遥感影像数据和DEM数据，提取1987年、1996年、2007年、2017年丹江口市与淅川县的土地利用类型遥感影像数据，利用遥感解译方式获取四期土地利用类

学位

GIS区域生态系统服务价值演变特性研究南水北调中线工程生态服务价值土地利用类型丹江口市面积服务类型遥感影像数据

国际工程项目人力资源管理风险及控制策略

作者简介：马可为（1986-），男，回族，北京人。主要研究方向：国际工程管理，人力资源管理。摘要：在越来越多的企业走走出国门承包国际工程的过程中，面临着全方位的资源调度和多种影响因素，对工程影响最大的就是人力资源因素。人力资源因素既影响到国际工程项目开展的稳定性，也影响到工程项目的施工效率，还影响到工程项目在世界经济环境下的竞争力。因此只有全面提升国际工程项目人力资源管理水平，有效控制人力资源管理

期刊

工程材料价格季节性波动情况下的库存成本分析

供应链管理在实际的生产项目中已经占据非常重要的作用和地位，伴随着经济全球化的高速发展，企业的管理模式持续升级，对库存全方面管理的意识越发重视，包括库存成本、管理进度、实施多级库存管理、管理人员等方面，确保能够有效地减少工程成本、提高仓库管理意识和提升经济利益，进而使建设项目顺利有序进行以及解决以往各企业库存间相互孤立的现状。工程项目施工和管理、季节变化等不确定因素会直接导致工程材料价格、需求和购置策略的不确定性，因此，在这些不确定情况下，研究多级库存的管理方法具有十分重要的价值和意义。
　　论文主要

学位

工程供应链材料价格季节性波动库存优化模型供应链管理供应链环境供应商承包商指数预测优化问题遗传算法三角模糊函数

浅析现代科技社团全面预算管理

作者简介：蔡红（1981— ），女，汉族，四川成都人，会计师。主要研究方向：财务管理。　　摘要：企业进行全面预算管理可以有效控制成本，实现利润最大化这一目标，而科技社团进行全面预算管理，可以合理配置科技社团的各项财务资源，有利于社团的战略目标的实现。文章从科技社团的非盈利属性出发，阐述了科技社团在现代社会的作用，描述了科技社团全面预算管理的内容，研究了管理层缺乏全面预算管理的意识;缺乏执行情况分

期刊

基于多种机器学习算法的员工离职预测模型对比及解释研究

与本文相关的学术论文