论文部分内容阅读
B2C环境中的零售商在日常运营中会经常面临影响工作效率的事情,而这种无效的工作缘由包括很多种,其中一个主要问题就是退货。现有研究中已经说明了众多网络购物中会产生退货的原因,但较少有学者研究退货的影响因素是如何作用于退货率。本文根据德国某家线上零售商服装类产品的订单资料,对数据集展开了探索性分析,并针对退货率影响因素和退货率预测问题分别展开了研究。(1)利用多种可视化分析技术对数据集中的变量展开了探索性分析,并对原始数据的缺失值采用热平台插补法进行插补,填补后剩余的缺失值与四分位距之外的异常值共同采用随机填补法进行重新填补。在原有数据集中的变量基础上,重新构建了年龄、发货时间、会员时长和购物篮大小四个变量。经过处理后,本文对数值型变量进行初步的标准化处理,对分类型变量进行了独热编码。(2)将处理后的数据集以7:3的比例分别划分为训练集和测试集,分别纳入退货率影响因素分析模型中,本文利用Logistic、CART、NNET、GBM算法和Xgboost算法五个预测机制综合分析了价格、尺寸、颜色、发货时长、年龄、会员时长、购物篮大小、城市和性别九个因素的重要性。不同模型对变量重要性排名不一致,但价格和购物篮大小两个变量为得票率最高的较为重要的两个变量。(3)利用混淆矩阵得到的准确度、真正率、真负率、F值和AUC六个指标对五个模型在退货率预测问题中的表现进行了对比。结果表明,在准确度、真正率、F值和AUC指标评估下,Xgboost算法、GBM算法及分类树模型在训练集和测试集中的表现普遍比Logistic和神经网络模型优异;在准确度和AUC值两个评估指标下,Xgboost算法优于其它预测模型,ROC曲线也进一步验证了该结论。但在真负率指标评估下,神经网络表现最佳。(4)利用不同规模的训练集与测试集拟合模型,并对比模型在不同指标下的表现优劣程度。结果表明,在准确度、真正率、真负率、F值和AUC指标评估下,数据集的大小对模型对退货率预测的表现没有明显影响,但是在精准度指标评估下,差异较为明显。