论文部分内容阅读
摘 要:本文基于国内某电子商务平台的用户购买行为数据,分别利用逻辑回归、支持向量机、随机森林和Xgboost建立信用评估模型,通过AUC值和F1得分比较各个模型的优劣,最终对表现优异的模型进行再次融合,从而提高电子商务平台风险评估效率。
关键词:电子商务;信用消费;风险评估;Xgboost;模型融合
一、引言
基于信息技术诞生的电子商务,极大地丰富了人们的消费方式。电子商务平台的出现打破了传统商务模式中区域以及国界的各种壁垒,与三方支付平台的有效结合将传统商务模式的购买行为变得更加高效便捷,还产生了像“花呗”这样的信用消费产品。与此同时也产生了一些问题,电子商务的虚拟化虽然令各类信息更加易得,但各种虚假信息掺杂其中,尤其在信用消费中,不少用户忽视规则使用信用消费导致不能按时还款,甚至给了一些不法分子恶意消费的机会。因此本文基于电子商务平台用户消费行为数据构建信用评估模型给用户提供合理信用消费权限。
二、模型选择
本文分别利用逻辑回归、支持向量机、随机森林建立信用评估模型,通过AUC值和F1得分比较各个模型的优劣,最终对表现优异的模型进行再次融合,从而提高互联网金融用户风险评估效率。
三、数据处理和模型评价
1.数据描述
本文选取了国内某电子商务平台的用户购买和支付行为数据作为研究目标。数据集包括Master、Log_Info、Userupdate_Info三个部分。Master表中包含了用户的学历学籍、社交行为等字段,Log_Info表中主要有用户终端日常操作行为字段,Userupdate_Info表里存储了用户修改相关信息的行为字段,三部分基础数据集共包含228个特征信息。
2.数据处理
对缺失值的处理,总的来说分为删除法和插补法。在征信领域,用户信息的完整程度可能会影响该用户的评级。本文分别从用户属性缺失率(按行)和特征缺失率(按列)两个角度对缺失数据进行了处理。
特征缺失率是指对于某个特定属性,缺失样本数占总样本数的比率。图1显示的是存在缺失的属性及对应的缺失比率。指标WeblogInfo_3及WeblogInfo_1变量的缺失率为0.967,这两列属性能够提供的信息量极少,可以直接剔除。UserInfor_11、UserInfor_12、UserInfor_13三个变量的缺失率为0.63,这三个变量均为分类变量,这种情况下可以将缺失值用当作分类变量的一个类别处理。
用户属性缺失率指的是对于某个具体用户而言其所有指标中缺失指标数占总指标数的比率。本文统计了训练样本及测试样本中每个用户的缺失属性个数,并且按照缺失个数进行排序,以排序序号为横轴缺失个数为纵轴,画出图2,从图中可以看出,属性缺失个数呈现阶梯装上升的特点,说明缺失个数这个特征可以有效的将用户群体区分开。本文将缺失个数作为一个离散变量加入到训练集中。
其中x是原始数据,μ是x的均值,μ是x的标准差,归一化之后的数据由于对方差进行了统一,这时候每个维度的量纲其实已经等价了,避免了不同量纲的选取对距离计算产生的巨大影响。本文对分类变量采用独热编码处理。
数据挖掘算法需要基于丰富的特征空间才能发挥良好的性能,单用原始数据的特征空间进行建模往往达不到理想的效果。本文针对Log_Info、Userupdate_Info两表,从中提取用户修改个人信息的特征以及登陆状态特征如:修改次数、修改时间、登陆天数等。特征提取完成之后又对数据特征进行了组合。
3.分类模型评价
精确率、召回率、AUC、F1等都是用来评价二分类模型好坏的指标,参照表1,精确率的计算方式为TP/(TP+FP),即为在预测为坏人的人中,预测正确的人占比。召回率的计算方式为TP/(TP+FN),即为在实际为坏人的人中,预测正确的人占比。F1值是精确率和召回率的调和均值,即F1=2PR/(P+R),相当于精确率和召回率的综合评价指标。
四、实验结果和分析
实验利用python语言实现,模型的表现采用AUC值和F1分数来衡量。其中LR、SVM、RF模型借助Scikit-Learn机器学习库进行训练,Xgboost模型是借助xgboost库进行训练。其中在训练Xgboost模型时,先通过网格寻参法确定一组良好的参数得到模型XGB_1,接着结合bagging思想,对这组参数施加一个小范围的随机干扰,得到另外两组模型XGB_2、XGB_3。最终将LR、SVM、RF、XGB_1、XGB_2、XGB_3六组模型进行融合得到Model_all。从下表中模型表现来看,集成学习方法和模型融合方法对信用评估效果有显著的提高。
五、结束语
本文基于电子商务平台用户消费和支付行为数据,使用单个模型、集成模型、模型融合三种方式对训练数据集进行拟合得到6组模型,并计算了每个模型的AUC值和F1得分,对比实验结果可以发现:集成学习算法的信用评估效果要优于单个模型;对模型进行再次融合能进一步提高预测的效果。
参考文献:
[1]朱晓明,刘治国.信用评分模型綜述[J].统计与决策,2007(2):103-105.
[2]Altman E I. Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy[J].The Journal of Finance,1968,23(4):589-609.
[3]WIGINTON J C. A note on the comparison of logic and discriminate models of consumer credit Behavior[J].Journal of Financial & Quantitative Analysis,1980,15(3):757-770.
作者简介:陈浩(1993- ),男,汉族,江苏南通人,单位:南京邮电大学经济学院,2016级研究生,应用统计专业
关键词:电子商务;信用消费;风险评估;Xgboost;模型融合
一、引言
基于信息技术诞生的电子商务,极大地丰富了人们的消费方式。电子商务平台的出现打破了传统商务模式中区域以及国界的各种壁垒,与三方支付平台的有效结合将传统商务模式的购买行为变得更加高效便捷,还产生了像“花呗”这样的信用消费产品。与此同时也产生了一些问题,电子商务的虚拟化虽然令各类信息更加易得,但各种虚假信息掺杂其中,尤其在信用消费中,不少用户忽视规则使用信用消费导致不能按时还款,甚至给了一些不法分子恶意消费的机会。因此本文基于电子商务平台用户消费行为数据构建信用评估模型给用户提供合理信用消费权限。
二、模型选择
本文分别利用逻辑回归、支持向量机、随机森林建立信用评估模型,通过AUC值和F1得分比较各个模型的优劣,最终对表现优异的模型进行再次融合,从而提高互联网金融用户风险评估效率。
三、数据处理和模型评价
1.数据描述
本文选取了国内某电子商务平台的用户购买和支付行为数据作为研究目标。数据集包括Master、Log_Info、Userupdate_Info三个部分。Master表中包含了用户的学历学籍、社交行为等字段,Log_Info表中主要有用户终端日常操作行为字段,Userupdate_Info表里存储了用户修改相关信息的行为字段,三部分基础数据集共包含228个特征信息。
2.数据处理
对缺失值的处理,总的来说分为删除法和插补法。在征信领域,用户信息的完整程度可能会影响该用户的评级。本文分别从用户属性缺失率(按行)和特征缺失率(按列)两个角度对缺失数据进行了处理。
特征缺失率是指对于某个特定属性,缺失样本数占总样本数的比率。图1显示的是存在缺失的属性及对应的缺失比率。指标WeblogInfo_3及WeblogInfo_1变量的缺失率为0.967,这两列属性能够提供的信息量极少,可以直接剔除。UserInfor_11、UserInfor_12、UserInfor_13三个变量的缺失率为0.63,这三个变量均为分类变量,这种情况下可以将缺失值用当作分类变量的一个类别处理。
用户属性缺失率指的是对于某个具体用户而言其所有指标中缺失指标数占总指标数的比率。本文统计了训练样本及测试样本中每个用户的缺失属性个数,并且按照缺失个数进行排序,以排序序号为横轴缺失个数为纵轴,画出图2,从图中可以看出,属性缺失个数呈现阶梯装上升的特点,说明缺失个数这个特征可以有效的将用户群体区分开。本文将缺失个数作为一个离散变量加入到训练集中。
其中x是原始数据,μ是x的均值,μ是x的标准差,归一化之后的数据由于对方差进行了统一,这时候每个维度的量纲其实已经等价了,避免了不同量纲的选取对距离计算产生的巨大影响。本文对分类变量采用独热编码处理。
数据挖掘算法需要基于丰富的特征空间才能发挥良好的性能,单用原始数据的特征空间进行建模往往达不到理想的效果。本文针对Log_Info、Userupdate_Info两表,从中提取用户修改个人信息的特征以及登陆状态特征如:修改次数、修改时间、登陆天数等。特征提取完成之后又对数据特征进行了组合。
3.分类模型评价
精确率、召回率、AUC、F1等都是用来评价二分类模型好坏的指标,参照表1,精确率的计算方式为TP/(TP+FP),即为在预测为坏人的人中,预测正确的人占比。召回率的计算方式为TP/(TP+FN),即为在实际为坏人的人中,预测正确的人占比。F1值是精确率和召回率的调和均值,即F1=2PR/(P+R),相当于精确率和召回率的综合评价指标。
四、实验结果和分析
实验利用python语言实现,模型的表现采用AUC值和F1分数来衡量。其中LR、SVM、RF模型借助Scikit-Learn机器学习库进行训练,Xgboost模型是借助xgboost库进行训练。其中在训练Xgboost模型时,先通过网格寻参法确定一组良好的参数得到模型XGB_1,接着结合bagging思想,对这组参数施加一个小范围的随机干扰,得到另外两组模型XGB_2、XGB_3。最终将LR、SVM、RF、XGB_1、XGB_2、XGB_3六组模型进行融合得到Model_all。从下表中模型表现来看,集成学习方法和模型融合方法对信用评估效果有显著的提高。
五、结束语
本文基于电子商务平台用户消费和支付行为数据,使用单个模型、集成模型、模型融合三种方式对训练数据集进行拟合得到6组模型,并计算了每个模型的AUC值和F1得分,对比实验结果可以发现:集成学习算法的信用评估效果要优于单个模型;对模型进行再次融合能进一步提高预测的效果。
参考文献:
[1]朱晓明,刘治国.信用评分模型綜述[J].统计与决策,2007(2):103-105.
[2]Altman E I. Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy[J].The Journal of Finance,1968,23(4):589-609.
[3]WIGINTON J C. A note on the comparison of logic and discriminate models of consumer credit Behavior[J].Journal of Financial & Quantitative Analysis,1980,15(3):757-770.
作者简介:陈浩(1993- ),男,汉族,江苏南通人,单位:南京邮电大学经济学院,2016级研究生,应用统计专业