论文部分内容阅读
作者简介:乔源(2000— ),男,汉族,辽宁大连人。主要研究方向:供应链管理。
摘 要:人才是企业的核心,如何留住人才是人力资源的核心命题。基于此,本文首先建立了员工离职预测指标体系,接着使用7种机器学习方法对员工是否离职进行预测,并从准确率,f1得分,AUC,召回率,敏感度等五个评估指标进行综合评估。实证结果表明:XGBoost算法具有高准确率和稳定性,较其他算法更优良。进而,本文采用cover准则对特征重要性进行了分析,员工是否离职决策更满足社会人假说,员工往往更倾向于追求自我实现和工作的自我契合,企业应优先满足员工社会层面的自我需求,有效防止员工离职。
关键词:机器学习算法;员工离职预测;特征重要性
互联网时代下,人才流动频繁,核心员工的主动辞职,不仅会给公司正常运营造成影响,降低企业受益,而且会导致客户流失,商业机密泄漏等诸多危害,如何通过历史数据或员工标记准确判断员工的离职倾向是人力资源管理的新研究方向。企业不再满足于探究某一两个变量或者因素和员工的离职的关系,因为员工离职往往是深思熟虑,众多因素有机结合的结果,因此对员工大数据特征进行机器学习显得很有价值。
通过收集员工特征大数据对于员工离职的预测不仅是人力资源领域的核心问题,也是机器学习算法研究的重要方向,部分学者侧重某一或几种因素的研究,李扬研究国有企业员工幸福感维度对于员工离职的影响,叶仁荪等研究组织承诺的影响;而大部分学者则从机器学习的角度出发,并不关心内在的因素解释,反而通过大数据机器学习的方式,最快最好地预测员工离职的结果,如刘婷婷选取IBM平台样例数据,运用C4.5决策树预测员工离职倾向,张紫君则采用GBDT算法预测员工离职的问题,更多的是算法的纵向结合或者横向比较。
但是目前学界对于离职预测往往仅追求的算法的精度,且所采用的算法大多是黑箱算法,难以直观解释。为进一步提升离职预测模型的性能及可解释性,本文基于IBM数据科学公布的员工离职数据进行分析,横向比较机器学习主流算法,通过预测准确率,f1得分,AUC得分,召回率,敏感度五项指标对模型评价和对比,最后通过性能最优的XGBoost算法以及其特征重要性解释分析员工离职决策的成因,对降低员工离职率,改善企业人才资源配置,提高企业综合绩效等方面具有一定的参考意义。
一、变量说明及预处理
(一)数据来源与变量选取
本文数据来源DataFound平台(https://www.datafountain.cn)上发布的IBM员工公开数据,数据包括定性和定量数据,选取全数据集33个字段,2000多条数据,具体数据名称及含义如下表1所示:
(二)数据预处理
首先,本文对数据进行归一化处理:
其次,为防止由于最终标签的不均衡导致的误差采用SMOTE方法按照1:1进行均衡采样,SMOTE的原理是:对于少数类样本a,随机选择一个最近邻的样本b,然后从a与b的连线上随机选取一个点c作為新的少数类样本,基本公式如下:
首先生成一个0-1之间的随机数:rand(0,1)
其次选取一个少类样本X原,并选取其相邻最近样本X相邻,最终通过如下公式:
X新=X原+rand(0,1)*(X相邻-X原)
使得样本在标签特征是否离职满足处均匀分布。
二、研究原理
(一)传统机器学习方法
本文采用三种传统的机器学习方法:支撑向量机(SVM),其本质是一种线性分类器,是以训练样本为研究对象,通过某种事先选定的关系映射出一个样本的高纬特征空间,并在其中找到一个超平面对样本进行线性分类;决策树(DT)是一种树形分类器,即采用某种标准(如:C4.5,ID3等)通过搜索遍历每一个节点的特征选择,最终获得一种最优分类的过程;逻辑回归(LR)是一种线性分类方法,通过非线性变换的Sigmoid函数,采用梯度下降,或者二阶的步长因子等对样本进行二维空间的线性分类。
(二)集成学习方法
除了上述传统的机器学习方法外,本文采用四种集成学习的方法:随机森林(Random Forest)随机森林是一种将多棵决策树集成的算法,其中的每一个单元——每棵决策树都是一个分类器,对于一个固定的输入样本,随机森林通过Bagging思想,以一种算法投票的方式,从N棵树会的N个分类结果选出最终的输出,以提升相比于单一树模型的分类结果的准确度;梯度提升树(GBDT)也是一种组合树型算法,以回归树作为基分类器,其核心就在于,每棵树是从先前所有树的残差中来学习,以前模型中损失函数的负梯度值,作为新树的残差来对新树进行优化,具有较好的优化性能。xgbBoost算法是GBDT算法的升级版,其在分类过程中就是不断地添加决策树,通过特征分裂来生成新树,来拟合上次树预测的残差,从而达到优化的效果;LightGBM是一种基于决策树算法的分布式梯度提升框架,每次从当前所有叶子中找到数量较大,分裂增益较大的叶节点,分裂形成新树,如此循环,在xgb基础上有效地减少空间和时间的小号,对cache优化也更加友好。
三、实证结果
(一)相关性分析
进行机器学习算法测试之前,先进行变量相关性分析,结果如下:由图1可知,变量和目标都存在相关性,但双变量之间的相关性都不高,这体现了员工离职往往不是由一个或两个因素决定的,一般来说,离职都是一种深思熟虑之后的决定,说明本文通过大数据机器学习的方法统筹考虑所有变量整体研究具有一定的意义。 (二)机器学习算法评估对比结果
为确保算法比较的准确性,本文采用十折交叉验证的方法,选取预测准确率,f1得分,auc得分,召回率,敏感度五个指标计算指标的均值和方差。预测准确率主要反应训练样本得到的模型对于测试集的拟合情况,即是否有较好的范化性;ROC曲线是在分类模型中,设置不同阈值的性能测量方法,ROC表示概率曲线,AUC表示分离性,二者结合表示所采用分类模型对样本区分的能力;召回率是衡量分类器在数据中所有离职中正确预测的离职的一种度量;敏感度,精度是对做出的肯定预测中有多少是正确的(真实肯定的)度量;F1分数是一种结合了精确度和召回率的度量,数学角度上是两者的特殊算术平均值——谐波均值的数显变现,是精确度和召回率的平衡体现。本文采用五个指标全面地比较各个算法的优劣,对比结果如下表2:
通过对比可知:集成学习算法平均显著优于传统的机器学习算法,而在集成学习算法中XGBoost的预测准确性,f1,roc-auc得分,召回率,精准率五个指标的得分都是最高的,这说明XGBoost算法在众多算法中的准确率是最高的。
(三)XGBoost评估结果稳定性检验
对数据集进行XGBoost集成学习训练,基于利益方对评估结果的期望,使用AUC作为模型优劣评估标准,另外不对超参数进行优化,均使用默认参数。通过进行10次10折交叉实验以验证其准确率和稳定性,共得到10组合计100次训练结果,如下表3所示:
从结果可以看出,10组AUC均值均在0.97以上且标准差均小于0.1,这说明了通过使用XGBoost集成学习对员工离职预测具有高准确率和稳健性。可以用来对员工离职情况进行预测。
(四)基于cover准则的XGBoost特征重要性
cover覆盖度指的是与此指标相关的观测的相对数量。如100个样本m个特征和n棵树,每个特征决定的树的叶节点占总四个特征的占比,一般cover覆盖度越高表示该指标对于整体越重要。
在cover准则下,员工离职的选择更偏重社会人假说,员工更像是具有自我追求和自我实现的个体。由图2可知:薪资涨幅(X24)对于员工是否离职的影响程度最大,这体现了员工往往比较关注于自己的实际收入的变化,尤其是每年是否有收入的增长,这主要体现了员工对于自己进步的要求。对比来说,月收入特征并没有排在前面,而薪资涨幅和淡出的收入不同,这是公司对员工这一年表现的一种肯定的体现,也是对员工价值的认可。工作事项、工作满意度和工作时间(X14,X17和X27)也具有显著影响,这三个因素体现的是员工对于自己工作的满意和理解。员工关注于自己在做什么,思考自己做的事情是否有意义,是否满意自己的工作,这些都是员工是否离职的重要因素。
四、结语
本文研究机器学习视角下对于员工离职率的预测,通过选取五个指标横向对比7种算法,最终结果表明:XGBoost算法具有最好的准确率和范化效果,并通过十次十折稳定性检验,对于员工离职率预测的算法选择具有一定的借鉴意义。同时,采用特征值描述的方法,基于cover准则对XGBoost算法的结果进行阐释,可得,员工是否离职更满足社会人假说,员工往往更倾向于追求自我实现和工作的自我契合。公司不仅要考虑员工的经济视角,也要思考如何满足员工的社会心理需要,如何使员工觉得自己做的工作有意义,每年适当对员工以提升薪酬/福利的方式进行激励,可以有效防止员工离职。
参考文献:
[1]李佳浩,李昕,褚治广.基于Stacking集成学习的员工离职预测方法[J].辽宁工业大學学报(自然科学版),2021,41(03):157-160.
[2]王志宁.基于XGBoost的员工离职预测及特征分析模型[J].数字技术与应用,2021,39(03):193-196.
[3]张欣瑞,范正芳,陶晓波.大数据在人力资源管理中的应用空间与挑战——基于谷歌与腾讯的对比分析[J].中国人力资源开发,2015(22):52-57+73
[4]赵西萍,刘玲,张长征.员工离职倾向影响因素的多变量分析[J].中国软科学,2003(03):71-74.
[5]李佳浩,李昕,褚治广.基于Stacking集成学习的员工离职预测方法[J].辽宁工业大学学报(自然科学版),2021,41(03):157-160.
[6]李扬.国有企业员工幸福感对离职倾向的影响研究[J].企业改革与管理,2020(20):53-54.
[7]叶仁荪,王玉芹,林泽炎.工作满意度、组织承诺对国企员工离职影响的实证研究[J].管理世界,2005(03):122-125.
[8]刘婷婷.分类器在员工离职预测中的应用[D].南宁:广西大学,2018.
[9]张紫君.企业员工的离职预测模型[D].重庆:重庆大学,2018.
摘 要:人才是企业的核心,如何留住人才是人力资源的核心命题。基于此,本文首先建立了员工离职预测指标体系,接着使用7种机器学习方法对员工是否离职进行预测,并从准确率,f1得分,AUC,召回率,敏感度等五个评估指标进行综合评估。实证结果表明:XGBoost算法具有高准确率和稳定性,较其他算法更优良。进而,本文采用cover准则对特征重要性进行了分析,员工是否离职决策更满足社会人假说,员工往往更倾向于追求自我实现和工作的自我契合,企业应优先满足员工社会层面的自我需求,有效防止员工离职。
关键词:机器学习算法;员工离职预测;特征重要性
互联网时代下,人才流动频繁,核心员工的主动辞职,不仅会给公司正常运营造成影响,降低企业受益,而且会导致客户流失,商业机密泄漏等诸多危害,如何通过历史数据或员工标记准确判断员工的离职倾向是人力资源管理的新研究方向。企业不再满足于探究某一两个变量或者因素和员工的离职的关系,因为员工离职往往是深思熟虑,众多因素有机结合的结果,因此对员工大数据特征进行机器学习显得很有价值。
通过收集员工特征大数据对于员工离职的预测不仅是人力资源领域的核心问题,也是机器学习算法研究的重要方向,部分学者侧重某一或几种因素的研究,李扬研究国有企业员工幸福感维度对于员工离职的影响,叶仁荪等研究组织承诺的影响;而大部分学者则从机器学习的角度出发,并不关心内在的因素解释,反而通过大数据机器学习的方式,最快最好地预测员工离职的结果,如刘婷婷选取IBM平台样例数据,运用C4.5决策树预测员工离职倾向,张紫君则采用GBDT算法预测员工离职的问题,更多的是算法的纵向结合或者横向比较。
但是目前学界对于离职预测往往仅追求的算法的精度,且所采用的算法大多是黑箱算法,难以直观解释。为进一步提升离职预测模型的性能及可解释性,本文基于IBM数据科学公布的员工离职数据进行分析,横向比较机器学习主流算法,通过预测准确率,f1得分,AUC得分,召回率,敏感度五项指标对模型评价和对比,最后通过性能最优的XGBoost算法以及其特征重要性解释分析员工离职决策的成因,对降低员工离职率,改善企业人才资源配置,提高企业综合绩效等方面具有一定的参考意义。
一、变量说明及预处理
(一)数据来源与变量选取
本文数据来源DataFound平台(https://www.datafountain.cn)上发布的IBM员工公开数据,数据包括定性和定量数据,选取全数据集33个字段,2000多条数据,具体数据名称及含义如下表1所示:
(二)数据预处理
首先,本文对数据进行归一化处理:
其次,为防止由于最终标签的不均衡导致的误差采用SMOTE方法按照1:1进行均衡采样,SMOTE的原理是:对于少数类样本a,随机选择一个最近邻的样本b,然后从a与b的连线上随机选取一个点c作為新的少数类样本,基本公式如下:
首先生成一个0-1之间的随机数:rand(0,1)
其次选取一个少类样本X原,并选取其相邻最近样本X相邻,最终通过如下公式:
X新=X原+rand(0,1)*(X相邻-X原)
使得样本在标签特征是否离职满足处均匀分布。
二、研究原理
(一)传统机器学习方法
本文采用三种传统的机器学习方法:支撑向量机(SVM),其本质是一种线性分类器,是以训练样本为研究对象,通过某种事先选定的关系映射出一个样本的高纬特征空间,并在其中找到一个超平面对样本进行线性分类;决策树(DT)是一种树形分类器,即采用某种标准(如:C4.5,ID3等)通过搜索遍历每一个节点的特征选择,最终获得一种最优分类的过程;逻辑回归(LR)是一种线性分类方法,通过非线性变换的Sigmoid函数,采用梯度下降,或者二阶的步长因子等对样本进行二维空间的线性分类。
(二)集成学习方法
除了上述传统的机器学习方法外,本文采用四种集成学习的方法:随机森林(Random Forest)随机森林是一种将多棵决策树集成的算法,其中的每一个单元——每棵决策树都是一个分类器,对于一个固定的输入样本,随机森林通过Bagging思想,以一种算法投票的方式,从N棵树会的N个分类结果选出最终的输出,以提升相比于单一树模型的分类结果的准确度;梯度提升树(GBDT)也是一种组合树型算法,以回归树作为基分类器,其核心就在于,每棵树是从先前所有树的残差中来学习,以前模型中损失函数的负梯度值,作为新树的残差来对新树进行优化,具有较好的优化性能。xgbBoost算法是GBDT算法的升级版,其在分类过程中就是不断地添加决策树,通过特征分裂来生成新树,来拟合上次树预测的残差,从而达到优化的效果;LightGBM是一种基于决策树算法的分布式梯度提升框架,每次从当前所有叶子中找到数量较大,分裂增益较大的叶节点,分裂形成新树,如此循环,在xgb基础上有效地减少空间和时间的小号,对cache优化也更加友好。
三、实证结果
(一)相关性分析
进行机器学习算法测试之前,先进行变量相关性分析,结果如下:由图1可知,变量和目标都存在相关性,但双变量之间的相关性都不高,这体现了员工离职往往不是由一个或两个因素决定的,一般来说,离职都是一种深思熟虑之后的决定,说明本文通过大数据机器学习的方法统筹考虑所有变量整体研究具有一定的意义。 (二)机器学习算法评估对比结果
为确保算法比较的准确性,本文采用十折交叉验证的方法,选取预测准确率,f1得分,auc得分,召回率,敏感度五个指标计算指标的均值和方差。预测准确率主要反应训练样本得到的模型对于测试集的拟合情况,即是否有较好的范化性;ROC曲线是在分类模型中,设置不同阈值的性能测量方法,ROC表示概率曲线,AUC表示分离性,二者结合表示所采用分类模型对样本区分的能力;召回率是衡量分类器在数据中所有离职中正确预测的离职的一种度量;敏感度,精度是对做出的肯定预测中有多少是正确的(真实肯定的)度量;F1分数是一种结合了精确度和召回率的度量,数学角度上是两者的特殊算术平均值——谐波均值的数显变现,是精确度和召回率的平衡体现。本文采用五个指标全面地比较各个算法的优劣,对比结果如下表2:
通过对比可知:集成学习算法平均显著优于传统的机器学习算法,而在集成学习算法中XGBoost的预测准确性,f1,roc-auc得分,召回率,精准率五个指标的得分都是最高的,这说明XGBoost算法在众多算法中的准确率是最高的。
(三)XGBoost评估结果稳定性检验
对数据集进行XGBoost集成学习训练,基于利益方对评估结果的期望,使用AUC作为模型优劣评估标准,另外不对超参数进行优化,均使用默认参数。通过进行10次10折交叉实验以验证其准确率和稳定性,共得到10组合计100次训练结果,如下表3所示:
从结果可以看出,10组AUC均值均在0.97以上且标准差均小于0.1,这说明了通过使用XGBoost集成学习对员工离职预测具有高准确率和稳健性。可以用来对员工离职情况进行预测。
(四)基于cover准则的XGBoost特征重要性
cover覆盖度指的是与此指标相关的观测的相对数量。如100个样本m个特征和n棵树,每个特征决定的树的叶节点占总四个特征的占比,一般cover覆盖度越高表示该指标对于整体越重要。
在cover准则下,员工离职的选择更偏重社会人假说,员工更像是具有自我追求和自我实现的个体。由图2可知:薪资涨幅(X24)对于员工是否离职的影响程度最大,这体现了员工往往比较关注于自己的实际收入的变化,尤其是每年是否有收入的增长,这主要体现了员工对于自己进步的要求。对比来说,月收入特征并没有排在前面,而薪资涨幅和淡出的收入不同,这是公司对员工这一年表现的一种肯定的体现,也是对员工价值的认可。工作事项、工作满意度和工作时间(X14,X17和X27)也具有显著影响,这三个因素体现的是员工对于自己工作的满意和理解。员工关注于自己在做什么,思考自己做的事情是否有意义,是否满意自己的工作,这些都是员工是否离职的重要因素。
四、结语
本文研究机器学习视角下对于员工离职率的预测,通过选取五个指标横向对比7种算法,最终结果表明:XGBoost算法具有最好的准确率和范化效果,并通过十次十折稳定性检验,对于员工离职率预测的算法选择具有一定的借鉴意义。同时,采用特征值描述的方法,基于cover准则对XGBoost算法的结果进行阐释,可得,员工是否离职更满足社会人假说,员工往往更倾向于追求自我实现和工作的自我契合。公司不仅要考虑员工的经济视角,也要思考如何满足员工的社会心理需要,如何使员工觉得自己做的工作有意义,每年适当对员工以提升薪酬/福利的方式进行激励,可以有效防止员工离职。
参考文献:
[1]李佳浩,李昕,褚治广.基于Stacking集成学习的员工离职预测方法[J].辽宁工业大學学报(自然科学版),2021,41(03):157-160.
[2]王志宁.基于XGBoost的员工离职预测及特征分析模型[J].数字技术与应用,2021,39(03):193-196.
[3]张欣瑞,范正芳,陶晓波.大数据在人力资源管理中的应用空间与挑战——基于谷歌与腾讯的对比分析[J].中国人力资源开发,2015(22):52-57+73
[4]赵西萍,刘玲,张长征.员工离职倾向影响因素的多变量分析[J].中国软科学,2003(03):71-74.
[5]李佳浩,李昕,褚治广.基于Stacking集成学习的员工离职预测方法[J].辽宁工业大学学报(自然科学版),2021,41(03):157-160.
[6]李扬.国有企业员工幸福感对离职倾向的影响研究[J].企业改革与管理,2020(20):53-54.
[7]叶仁荪,王玉芹,林泽炎.工作满意度、组织承诺对国企员工离职影响的实证研究[J].管理世界,2005(03):122-125.
[8]刘婷婷.分类器在员工离职预测中的应用[D].南宁:广西大学,2018.
[9]张紫君.企业员工的离职预测模型[D].重庆:重庆大学,2018.