论文部分内容阅读
当物流行业取得飞速发展的同时,给物流企业也带来了巨大的挑战。物流企业一是起步晚,根基弱,二是管理不成熟,市场竞争力大,导致客户流失率高。如何降低现有客户流失率,维护好老客户的同时开发更多新客户,是当前物流企业所面临的关键性问题。因此,本文从物流企业客户流失这个实际问题出发,构建出物流企业的客户流失预测模型,以G物流公司实际客户数据为背景,运用随机森林等算法,通过对G物流公司客户行为数据的研究与分析,挖掘出已经流失客户的行为特征,对未来可能流失的客户进行提前预警,并提出客户挽留策略,帮助物流企业改善企业流失现状。客户流失预测问题可以视为数据挖掘中的大数据分类问题,因此本文将利用大数据分类算法对客户流失问题进行预测分析:(1)首先明确了物流企业客户流失问题。本文系统的分析了物流企业行业现状,客户流失预测研究现状,给出了企业客户流失定义,明确了物流客户流失这个具体研究问题。(2)其次本文针对物流企业客户数据集存在的样本正负不平衡问题,采用数据均衡化处理,对数据集进行异常值、缺失值和分层处理,结合SMOTE算法进行插值过程对G物流公司客户数据集进行了平衡化处理,最终使得正负类样本集达到均衡。(3)然后对特征指标进行高效筛选。本文运用随机森林基尼重要度进行特征选择,选取了G物流公司客户流失数据集进行特征筛选,选出了17个特征指标,去除无效特征,选出12个特征指标,并将该子集输入到SVM模型中,其模型精度提高了2.29%。(4)最后基于随机森林模型进行客户流失预测模型构建和模型对比。本文结合数据挖掘机器学习,构建基于随机森林的G物流公司客户流失预测模型,并将模型结果和线性支持向量机、朴素贝叶斯和逻辑回归模型比较,实验结果表明,基于随机森林的客户流失预测分类模型准确率比其他模型高9%。本文一方面从客户流失预测研究中存在的问题入手,将大数据算法应用到客户流失预测问题中,先对不平衡数据进行均衡化处理,在此构建了基于随机森林算法的客户流失预测模型;另一方面,将提出的客户流失预测问题以实际物流公司为背景,将其客户数据进行分析并建模,构建了实际物流企业的客户流失预测模型,最后再跟其他算法进行对比分析,指出本文算法的可适用性,并针对不同细分价值进行客户挽留策略。