电子商务平台用户信用消费风险评估方法

来源 :商场现代化 | 被引量 : 0次 | 上传用户:RubbishHP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文基于国内某电子商务平台的用户购买行为数据,分别利用逻辑回归、支持向量机、随机森林和Xgboost建立信用评估模型,通过AUC值和F1得分比较各个模型的优劣,最终对表现优异的模型进行再次融合,从而提高电子商务平台风险评估效率。
  关键词:电子商务;信用消费;风险评估;Xgboost;模型融合
  一、引言
  基于信息技术诞生的电子商务,极大地丰富了人们的消费方式。电子商务平台的出现打破了传统商务模式中区域以及国界的各种壁垒,与三方支付平台的有效结合将传统商务模式的购买行为变得更加高效便捷,还产生了像“花呗”这样的信用消费产品。与此同时也产生了一些问题,电子商务的虚拟化虽然令各类信息更加易得,但各种虚假信息掺杂其中,尤其在信用消费中,不少用户忽视规则使用信用消费导致不能按时还款,甚至给了一些不法分子恶意消费的机会。因此本文基于电子商务平台用户消费行为数据构建信用评估模型给用户提供合理信用消费权限。
  二、模型选择
  本文分别利用逻辑回归、支持向量机、随机森林建立信用评估模型,通过AUC值和F1得分比较各个模型的优劣,最终对表现优异的模型进行再次融合,从而提高互联网金融用户风险评估效率。
  三、数据处理和模型评价
  1.数据描述
  本文选取了国内某电子商务平台的用户购买和支付行为数据作为研究目标。数据集包括Master、Log_Info、Userupdate_Info三个部分。Master表中包含了用户的学历学籍、社交行为等字段,Log_Info表中主要有用户终端日常操作行为字段,Userupdate_Info表里存储了用户修改相关信息的行为字段,三部分基础数据集共包含228个特征信息。
  2.数据处理
  对缺失值的处理,总的来说分为删除法和插补法。在征信领域,用户信息的完整程度可能会影响该用户的评级。本文分别从用户属性缺失率(按行)和特征缺失率(按列)两个角度对缺失数据进行了处理。
  特征缺失率是指对于某个特定属性,缺失样本数占总样本数的比率。图1显示的是存在缺失的属性及对应的缺失比率。指标WeblogInfo_3及WeblogInfo_1变量的缺失率为0.967,这两列属性能够提供的信息量极少,可以直接剔除。UserInfor_11、UserInfor_12、UserInfor_13三个变量的缺失率为0.63,这三个变量均为分类变量,这种情况下可以将缺失值用当作分类变量的一个类别处理。
  用户属性缺失率指的是对于某个具体用户而言其所有指标中缺失指标数占总指标数的比率。本文统计了训练样本及测试样本中每个用户的缺失属性个数,并且按照缺失个数进行排序,以排序序号为横轴缺失个数为纵轴,画出图2,从图中可以看出,属性缺失个数呈现阶梯装上升的特点,说明缺失个数这个特征可以有效的将用户群体区分开。本文将缺失个数作为一个离散变量加入到训练集中。
  其中x是原始数据,μ是x的均值,μ是x的标准差,归一化之后的数据由于对方差进行了统一,这时候每个维度的量纲其实已经等价了,避免了不同量纲的选取对距离计算产生的巨大影响。本文对分类变量采用独热编码处理。
  数据挖掘算法需要基于丰富的特征空间才能发挥良好的性能,单用原始数据的特征空间进行建模往往达不到理想的效果。本文针对Log_Info、Userupdate_Info两表,从中提取用户修改个人信息的特征以及登陆状态特征如:修改次数、修改时间、登陆天数等。特征提取完成之后又对数据特征进行了组合。
  3.分类模型评价
  精确率、召回率、AUC、F1等都是用来评价二分类模型好坏的指标,参照表1,精确率的计算方式为TP/(TP+FP),即为在预测为坏人的人中,预测正确的人占比。召回率的计算方式为TP/(TP+FN),即为在实际为坏人的人中,预测正确的人占比。F1值是精确率和召回率的调和均值,即F1=2PR/(P+R),相当于精确率和召回率的综合评价指标。
  四、实验结果和分析
  实验利用python语言实现,模型的表现采用AUC值和F1分数来衡量。其中LR、SVM、RF模型借助Scikit-Learn机器学习库进行训练,Xgboost模型是借助xgboost库进行训练。其中在训练Xgboost模型时,先通过网格寻参法确定一组良好的参数得到模型XGB_1,接着结合bagging思想,对这组参数施加一个小范围的随机干扰,得到另外两组模型XGB_2、XGB_3。最终将LR、SVM、RF、XGB_1、XGB_2、XGB_3六组模型进行融合得到Model_all。从下表中模型表现来看,集成学习方法和模型融合方法对信用评估效果有显著的提高。
  五、结束语
  本文基于电子商务平台用户消费和支付行为数据,使用单个模型、集成模型、模型融合三种方式对训练数据集进行拟合得到6组模型,并计算了每个模型的AUC值和F1得分,对比实验结果可以发现:集成学习算法的信用评估效果要优于单个模型;对模型进行再次融合能进一步提高预测的效果。
  参考文献:
  [1]朱晓明,刘治国.信用评分模型綜述[J].统计与决策,2007(2):103-105.
  [2]Altman E I. Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy[J].The Journal of Finance,1968,23(4):589-609.
  [3]WIGINTON J C. A note on the comparison of logic and discriminate models of consumer credit Behavior[J].Journal of Financial & Quantitative Analysis,1980,15(3):757-770.
  作者简介:陈浩(1993- ),男,汉族,江苏南通人,单位:南京邮电大学经济学院,2016级研究生,应用统计专业
其他文献
摘 要:随着市场经济建设工作的不断推进,国有企业改革也在快速完善。国有企业改革中一个重要的问题是如何建立一套高效统一的内部控制体系,实现国有企业执行力的提升,以完善现代企业管理制度。本文从国有企业内部控制建设的必要性出发,通过对样本企业内部控制中存在的问题进行系统梳理,进而进行原因分析,提出完善国有企业内部控制制度的建议,以期促进国有企业的良性发展。   关键词:国有企业;内部控制;建议  
期刊
摘 要:供应链管理始终是服装行业实现“质”的发展中的关键一步,然而我国服装行业在发展中却浮现出诸多关于供应链管理的问题。服装行业走向国际市场依然缺乏实力,这就要求企业战略性调整供应链管理模式。本文结合供应链管理各要素和我国服装行业目前的问题,分析世界知名服装品牌ZARA的供应链管理模式,希望能够给我国服装行业一定的借鉴。  关键词:供应链管理;服装行业;ZARA  一、供應链与供应链管理基本内涵 
期刊
摘 要:随着纯电商零售获客成本越来越高,实体零售业结构性回暖,信息技术的广泛运用与不断升级创新,诞生了融合线上与线下的新的零售模式——“新零售”。本文以上海市盒马鲜生为例,通过对新零售模式下盒马鲜生供应链方面的研究分析与评价,为传统零售业如何应对新零售时代提出建议,促进传统零售企业的转型。  关键词:新零售;盒马鲜生;供应链  一、“新零售”概述  马云在2016年杭州演讲时提出了“新零售”,纯电
期刊
摘 要:随着世界资本市场的迅猛发展,国内上市公司层出不穷,致使会计人员财务的舞弊问题日趋显露。财务舞弊行为不仅败坏道德风气降低职业素养,还会影响国家对经济的宏观调控进而阻碍国家经济的发展,极大程度上损害了企业投资者的利益。舞弊者对利益诱惑的把控承认低,不注重对职业道德的提升是造成财务舞弊现象的主要原因。本文以上市K公司为例,着重从三个角度分析舞弊因素产生的原因,并为治理防范会计舞弊现象提出合理意见
期刊
摘 要:近年来,文化越来越多地融入到旅游市场,各地区也都乘着这股热潮纷纷进行相应的转型升级来促进本地区经济的发展,蚌埠市也在积极地探索文化旅游发展的道路。本文以“文化+旅游”政策下的蚌埠市为研究对象,运用GM(1,1)模型来对蚌埠市近年来的旅游总收入数据进行处理,分析目前蚌埠市文化旅游当下以及未来的发展状况,发现蚌埠市文化旅游业在发展中存在的问题,并提出相应的解决措施,助力蚌埠市的文化旅游产业乃至
期刊
摘 要:21世纪以来,科技的发展不断促进生产力的发展和生产效率的提高。而科技的发展离不开持续的研发投入,国内外诸多学者都从不同角度探究了研发活动对企业绩效的影响。而我国为了鼓励科技创新,为此类公司提供融资平台于2009年推出创业板。本文选取了创业板2017年468家上市公司的相关数据信息,利用多元回归分析方法探究公司研发投入和企业绩效两者之间的关系,实证结果表明,对创业板上市公司来说,研发投入在当
期刊
摘 要:随着科技水平的逐步提高,我国企业发展逐步走向了“互联网+”的时代,在大数据背景下,对于企业管理的信息化要求越来越高,同时信息化水平的提高也有助于企业标准化的建设发展。利用信息化来提高企业的标准化建设以及企业管理水平建设,主要在于企业内部控制机制的创新。本文首先是对河南省零售企业的企业管理现状分析,在此基础上,分析了信息化在企业标准化建设以及在企业管理中的作用,最终对其发展途径进行探讨,以期
期刊
摘 要:随着“互联网+”的快速发展,如何更好地利用“互联网+”促进农副土特产品的销售、增加农民收入、实现乡村振兴、早日建成小康社会已成为人们普遍关心的重要话题。本文通过研究巢湖银鱼的销售现状,分析银鱼产业存在的问题,立足于“互联网+”的时代背景,结合巢湖实际,提出壮大巢湖银鱼产业的对策;改变传统营销方式,将互联网与银鱼销售结合起来,推动特色农产品营销,探讨促进银鱼产业转型升级的营销方案;突出地方特
期刊
摘 要:俄罗斯一直以来是我国木材最大的进口国之一。近年来,俄罗斯多次提高原木出口关税并鼓励锯材出口以求发展本国木材深加工产业,提高木材附加值。这对中俄两国木材贸易未来的发展影响巨大。本文采用引力模型分析影响中俄木材贸易的主要因素,发现两国国内生产总值、森林认证与政策对中俄木材贸易影响显著。  关键词:中俄;木材贸易;引力模型  一、前言   1998年开始,我国开始实施“天保工程”,木材砍伐量大
期刊
摘 要:随着我国经济的不断发展,我国的企业也在不断发展,企业集团在经济中所发挥的作用越来越重要。与此同时,不可忽视的是发展中的企业的管理模式,大量的信息数据需要被高效地进行处理,因此企业越来越趋于集中化管理,而互联网的技术的高速发展,信息化程度的不断提高,国内外企业更多地倾向于选择大数据的模式对企业企业数据进行分析,以及对企业的问题进行研究,即促成了财务共享服务平台的出现。财务共享服务模式在实践中
期刊