论文部分内容阅读
摘 要:能否精准地对批发客户来源渠道进行分类,是影响企业制定营销策略的一个重要因素。随着数据科学和人工智能的发展,机器学习技术帮助研究人员提高分类模型的准确性。在本研究中,我们基于WEKA平台,利用NaiveBayes算法构造分类模型并不断对模型进行优化,并利用未知数据进行预测。实验分析表明,基于WEKA平台利用NaiveBayes算法对批发客户来源渠道分类是可行且有效的,且分类精度较高。本文旨在利用某个区域内批发类消费者的购买行为预测消费者的购买渠道(餐饮业/零售商),进而从数据挖掘角度对区域消费需求预测理论提供借鉴与帮助。
关键词:WEKA平台;批发客户分类;NaiveBayes算法;预测
一、引言
批发中的经销商来源(包括零售商和餐饮业)受到许多因素的影响,这些因素之间存在着很多复杂的联系。良好的经销渠道不仅要通过在合适的地点以合适的质量、数量和价格供应产品或服务来满足需求,而且要通过渠道成员的各种营销努力来刺激需求。根据著名的二八法则,企业80%的利润来源于20%的客户。因此,对于企业而言,对批发客户来源进行细分,并分析不同类别客户的特点和偏好,以采取不同的管理措施是很重要的。
如今获取数据的技术和手段越来越多样化,海量的数据被收集,但怎样从庞大的数据量中发现背后所隐藏的重要信息,以此来预测未来趋势,为决策提供支持,已成为当务之急。人们需要更有效的手段对各种大量的数据进行分析、提取以挖掘其潜能。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,利用数据挖掘进行分类、预测已经成为当前研究的热点。
数据挖掘技术可以帮助企业分析其海量的批发客户数据,获得有用的客户信息。本文采用理论与实践相结合的研究方法,应用WEKA中的分类技术,依据加州大学欧文分校(UCI)的机器学习库中的数据集http://archive.ics.uci.edu/ml/datasets/Wholesale+customers,挖掘数据库中隐含的客户分类信息。
二、基于WEKA平台的分类模型分析
(一)研究方法与数据来源。WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),集成了大量数据分类、聚类、关联分析挖掘等相关算法,是一个开源的机器学习与数据挖掘应用平台,自2005年获得知识探索领域最高服务奖以来得到广泛的认可与应用。本研究实验流程包含数据采集-数据预处理-实验与分析等,以上步骤均在WEKA 软件中实现,其中数据预处理主要包括数据清洗及某些属性缺失值的插值处理,实验与分析是应用基本分类机器学习算法对数据集进行交叉验证。
研究数据来源于加州大学欧文分校(UCI)的机器学习库,该数据集来自葡萄牙里斯本市场部。数据集汇总了新鲜产品、奶制品、杂货产品、冷冻产品、熟食产品、洗涤剂和纸制品的年度支出,同时包含了批发客户所在地区和批发客户的来源渠道。我们将客户渠道作为输出变量(即预测标签)的状态,并将其他变量作为输入变量。
(二)数据预处理。
由于本系统的数据是直接从数据库中导出的,因此用于數据挖掘的数据已经经过ETL处理,只需要按照WEKA的要求进行简单的预处理操作就能够达到预测时的数据格式要求。由于不能直接从数据仓库中导出WEKA需要的arff格式的文件,所以先从数据仓库中将数据导出为CSV文件,然后利用WEKA的“ArffViewer”将文件转化成arff格式。对导入的数据进行Standardize标准化处理,此外,WEKA系统中的部分分类分析算法要求属性必须是nominal(名词型)数据类型的,所以需要将部分numeric(数值型)的属性进行离散化,然后转换成nominal类型。
(三)模型构建。本研究进行批发客户的经销渠道分类预测时,选择NaiveBayes分类器,设定十次循环交叉验证(10-fold cross-validation)。对批发客户数据集进机器学习,即将数据集随机分为10份,使用8份做训练,使用2份做测试,如此循环10次,最后整体计算结果。
该模型分为四个部分:
1)使用RandomSubset对数据集中的输出变量进行类别处理。2)使用SMOTE处理此模型中的不平衡数据集。3)采用Resample使得数据分布偏向均匀分布。4)采用NaiveBayes分类器进行数据集实验和性能评估。
然后使用集合模型对测试数据集进行分类和验证,并将性能与之前几个步骤的结果进行比较。
三、实验
在本节中,我们主要介绍了我们提出的模型的实验设置和实验结果的比较。实验数据和测试数据随机分配比例为0.8:0.2。训练数据由RandomSubset和SMOTE不平衡学习算法预处理,在Resample之后,使用NaiveBayes分类器对数据进行实验,并最终使用测试数据集进行验证。经过10次实验,获得了我们提出的模型的平均性能。
(一)模型评价指标。分类的目的是构造分类函数或模型(即分类器),通过该分类函数或模型将数据对象映射到给定类别。该分类器的目标只有两个类别,即零售商和餐饮业。对于二分法问题,这些例子分为正面或负面指标。在实际情况中,有四种情况:1)真阳性(TP):正确归类为阳性样本数;2)误报(FP):被错误归类为阳性的样本数量;3)假阴性(FN):被错误分类的阴性样本数;4)真阴性(TN):被正确分类的阴性样本数。
在本文中,我们将批发客户渠道为零售商定义为正面渠道,将餐饮业定义为负面渠道。
接收器工作特性(ROC)是接收器工作特性曲线的缩写,也称为灵敏度曲线。ROC反映了连续变量综合指数的敏感性和特异性,是揭示敏感性和特异性关系的组合方法。
接收器操作特性下的区域(AuROC)是二元分类任务中分类器优良性的通用汇总统计指标。通常,AUC的值在0.5和1.0之间。ROC曲线具有以下属性:当数据集中的正样本和负样本的分布发生变化时,它可以保持不变。通常,实际数据集是不平衡的,正样本远大于负样本(反之亦然),并且测试数据集的正样本和负样本的分布也可能随时间而变化。因此,AuROC对不平衡数据不太敏感。 (二)实验结果与分析。输出结果的相关精度指标主要体现在精准度(Precision)、召回率(Recall)、F 值(F-Measure)、ROC面积(ROC Area)上。其中,召回率表示识别正确的实例占此类别总实例的比例;F值作为综合反应精准度与召回率的指标,其值越大说明精准度和召回率都相对较高;Roc 面积指 Roc 曲线下面积,其值越接近 1,说明模型的诊断效果越好。
从总体平均的精度结果可以看出:在NaiveBayes算法下,逐步优化后模型的评价指标均有了很大程度的提升。召回率达到0.733,能够正确对73.3%的实例进行划分;ROC面积指标上,算法面积更接近于1,表现好于之前的步骤。总的来说,以详细的精度來评价,在NaiveBayes分类器下,我们的模型展现出了很好的训练和预测效果。
四、结论与展望
精准的批发客户渠道细分能够为公司管理客户提供有益的信息,企业相关信息的不断积累,使得数据挖掘成为从这些信息中获取有价值的知识的重要工具。随着数据科学的兴起和发展,研究人员通过数据挖掘分析和预测客户类型已经成为一个热门话题。机器学习作为人工智能的主流方法,在今天的研究中发挥着越来越重要的作用。
本研究以葡萄牙里斯本市场部的批发客户数据为样本,借助数据挖掘工具WEKA,通过机器学习构建针对批发客户渠道类型的分类模型,对模型进行优化,NaiveBayes算法能较好地实现实例的训练与预测,整体准确率均大于百分之八十。同时,通过详细的精度进一步比较逐步优化的性能与可靠性。实验和预测结果表明:在F值、召回率和ROC面积等方面,我们的模型展现出了很好的训练和预测效果,同时也达到了较好的精准度。希望本文的研究工作对今后的客户分类管理研究能有所帮助。
本文的研究为信息化环境下区域消费需求预测理论研究提供了科学的思路与支撑,但是当某一批发客户拥有多种消费类型(如酒品类)需求时的分类建模还应做进一步研究,同时可以考虑扩大样本数据的类别属性个数如增加批发客户的个人特质等,来进一步提高模型分类的精准度。
参考文献:
[1] 朱慧云,李正扬.基于WEKA平台的会员制超市客户分类分析[J].商场现代化,2010,37(8):33.
[2] 黎晗.数据挖掘在客户关系管理中的应用——以客户分类为例[J].管理世界,2015(36):82-84.
[3] 闫春,孙海棠,李亚琪.基于随机森林与RFM模型的财险客户分类管理研究[J].科技与经济,2018,31(1):56-60.
[4] 宝音图,刘真真.基于Python的客户分类和挖掘系统[J].信息与电脑,2018(15):72-76.
[5] 陈小燕,易仲强.基于 WEKA 平台的数据挖掘及其在地下水分类中的应用[J].水利科技与经济,2014,20(7):84-86.
[6] 马晶,蒲伦,徐月,李旭.基于WEKA平台的C4.5算法在影像分类中的应用[J].测绘与空间地理信息,2017,40(5):52-55.
[7] 李智勇,孙小英.ARIMA模型在批发和零售贸易餐饮业预测中的应用[J].襄樊职业技术学院学报,2006,5(6):30-31.
[8] 卢媛媛,张剑,何海燕.基于WEKA的客户分类信息系统研究[J].计算机工程与科学,2011,33(5):132-135.
[9] 杨红艳.客户管理与分类方法的研究与实现[D].大连:大连理工大学,2017.
[10] 黄亦潇,邵培基,李菁菁.基于客户价值的客户分类方法研究预测[J].2004,23(3):31-35.
[11] 石永奎,李鹏瑞,王英, et al.基于WEKA的冲击地压预测方法分析[J].煤炭技术, 2015, 05):219-21.
[12] WITTEN I H, FRANK E. Data Mining: Practical machine learning tools and techniques [M]. Morgan Kaufmann,2005.
[13] LAN H, FRANK E, HALL M.Data mining: Practical machine learning tools and techniques [M].Morgan Kaufman, Boston. 2011.
基金项目:浙江省大学生科技创新活动计划暨新苗人才计划《O2O互联网招聘 APP“实习帮”的开发与应用——基于多特征融合的企业实习信息语义相似度算法》;项目编号:2019R414051。
浙江省高等教育十三五第一批教学改革研究项目:基于创新创业导向的《连锁经营与管理》翻转课堂教学实践探索;课题编号:jg20180207。
关键词:WEKA平台;批发客户分类;NaiveBayes算法;预测
一、引言
批发中的经销商来源(包括零售商和餐饮业)受到许多因素的影响,这些因素之间存在着很多复杂的联系。良好的经销渠道不仅要通过在合适的地点以合适的质量、数量和价格供应产品或服务来满足需求,而且要通过渠道成员的各种营销努力来刺激需求。根据著名的二八法则,企业80%的利润来源于20%的客户。因此,对于企业而言,对批发客户来源进行细分,并分析不同类别客户的特点和偏好,以采取不同的管理措施是很重要的。
如今获取数据的技术和手段越来越多样化,海量的数据被收集,但怎样从庞大的数据量中发现背后所隐藏的重要信息,以此来预测未来趋势,为决策提供支持,已成为当务之急。人们需要更有效的手段对各种大量的数据进行分析、提取以挖掘其潜能。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,利用数据挖掘进行分类、预测已经成为当前研究的热点。
数据挖掘技术可以帮助企业分析其海量的批发客户数据,获得有用的客户信息。本文采用理论与实践相结合的研究方法,应用WEKA中的分类技术,依据加州大学欧文分校(UCI)的机器学习库中的数据集http://archive.ics.uci.edu/ml/datasets/Wholesale+customers,挖掘数据库中隐含的客户分类信息。
二、基于WEKA平台的分类模型分析
(一)研究方法与数据来源。WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),集成了大量数据分类、聚类、关联分析挖掘等相关算法,是一个开源的机器学习与数据挖掘应用平台,自2005年获得知识探索领域最高服务奖以来得到广泛的认可与应用。本研究实验流程包含数据采集-数据预处理-实验与分析等,以上步骤均在WEKA 软件中实现,其中数据预处理主要包括数据清洗及某些属性缺失值的插值处理,实验与分析是应用基本分类机器学习算法对数据集进行交叉验证。
研究数据来源于加州大学欧文分校(UCI)的机器学习库,该数据集来自葡萄牙里斯本市场部。数据集汇总了新鲜产品、奶制品、杂货产品、冷冻产品、熟食产品、洗涤剂和纸制品的年度支出,同时包含了批发客户所在地区和批发客户的来源渠道。我们将客户渠道作为输出变量(即预测标签)的状态,并将其他变量作为输入变量。
(二)数据预处理。
由于本系统的数据是直接从数据库中导出的,因此用于數据挖掘的数据已经经过ETL处理,只需要按照WEKA的要求进行简单的预处理操作就能够达到预测时的数据格式要求。由于不能直接从数据仓库中导出WEKA需要的arff格式的文件,所以先从数据仓库中将数据导出为CSV文件,然后利用WEKA的“ArffViewer”将文件转化成arff格式。对导入的数据进行Standardize标准化处理,此外,WEKA系统中的部分分类分析算法要求属性必须是nominal(名词型)数据类型的,所以需要将部分numeric(数值型)的属性进行离散化,然后转换成nominal类型。
(三)模型构建。本研究进行批发客户的经销渠道分类预测时,选择NaiveBayes分类器,设定十次循环交叉验证(10-fold cross-validation)。对批发客户数据集进机器学习,即将数据集随机分为10份,使用8份做训练,使用2份做测试,如此循环10次,最后整体计算结果。
该模型分为四个部分:
1)使用RandomSubset对数据集中的输出变量进行类别处理。2)使用SMOTE处理此模型中的不平衡数据集。3)采用Resample使得数据分布偏向均匀分布。4)采用NaiveBayes分类器进行数据集实验和性能评估。
然后使用集合模型对测试数据集进行分类和验证,并将性能与之前几个步骤的结果进行比较。
三、实验
在本节中,我们主要介绍了我们提出的模型的实验设置和实验结果的比较。实验数据和测试数据随机分配比例为0.8:0.2。训练数据由RandomSubset和SMOTE不平衡学习算法预处理,在Resample之后,使用NaiveBayes分类器对数据进行实验,并最终使用测试数据集进行验证。经过10次实验,获得了我们提出的模型的平均性能。
(一)模型评价指标。分类的目的是构造分类函数或模型(即分类器),通过该分类函数或模型将数据对象映射到给定类别。该分类器的目标只有两个类别,即零售商和餐饮业。对于二分法问题,这些例子分为正面或负面指标。在实际情况中,有四种情况:1)真阳性(TP):正确归类为阳性样本数;2)误报(FP):被错误归类为阳性的样本数量;3)假阴性(FN):被错误分类的阴性样本数;4)真阴性(TN):被正确分类的阴性样本数。
在本文中,我们将批发客户渠道为零售商定义为正面渠道,将餐饮业定义为负面渠道。
接收器工作特性(ROC)是接收器工作特性曲线的缩写,也称为灵敏度曲线。ROC反映了连续变量综合指数的敏感性和特异性,是揭示敏感性和特异性关系的组合方法。
接收器操作特性下的区域(AuROC)是二元分类任务中分类器优良性的通用汇总统计指标。通常,AUC的值在0.5和1.0之间。ROC曲线具有以下属性:当数据集中的正样本和负样本的分布发生变化时,它可以保持不变。通常,实际数据集是不平衡的,正样本远大于负样本(反之亦然),并且测试数据集的正样本和负样本的分布也可能随时间而变化。因此,AuROC对不平衡数据不太敏感。 (二)实验结果与分析。输出结果的相关精度指标主要体现在精准度(Precision)、召回率(Recall)、F 值(F-Measure)、ROC面积(ROC Area)上。其中,召回率表示识别正确的实例占此类别总实例的比例;F值作为综合反应精准度与召回率的指标,其值越大说明精准度和召回率都相对较高;Roc 面积指 Roc 曲线下面积,其值越接近 1,说明模型的诊断效果越好。
从总体平均的精度结果可以看出:在NaiveBayes算法下,逐步优化后模型的评价指标均有了很大程度的提升。召回率达到0.733,能够正确对73.3%的实例进行划分;ROC面积指标上,算法面积更接近于1,表现好于之前的步骤。总的来说,以详细的精度來评价,在NaiveBayes分类器下,我们的模型展现出了很好的训练和预测效果。
四、结论与展望
精准的批发客户渠道细分能够为公司管理客户提供有益的信息,企业相关信息的不断积累,使得数据挖掘成为从这些信息中获取有价值的知识的重要工具。随着数据科学的兴起和发展,研究人员通过数据挖掘分析和预测客户类型已经成为一个热门话题。机器学习作为人工智能的主流方法,在今天的研究中发挥着越来越重要的作用。
本研究以葡萄牙里斯本市场部的批发客户数据为样本,借助数据挖掘工具WEKA,通过机器学习构建针对批发客户渠道类型的分类模型,对模型进行优化,NaiveBayes算法能较好地实现实例的训练与预测,整体准确率均大于百分之八十。同时,通过详细的精度进一步比较逐步优化的性能与可靠性。实验和预测结果表明:在F值、召回率和ROC面积等方面,我们的模型展现出了很好的训练和预测效果,同时也达到了较好的精准度。希望本文的研究工作对今后的客户分类管理研究能有所帮助。
本文的研究为信息化环境下区域消费需求预测理论研究提供了科学的思路与支撑,但是当某一批发客户拥有多种消费类型(如酒品类)需求时的分类建模还应做进一步研究,同时可以考虑扩大样本数据的类别属性个数如增加批发客户的个人特质等,来进一步提高模型分类的精准度。
参考文献:
[1] 朱慧云,李正扬.基于WEKA平台的会员制超市客户分类分析[J].商场现代化,2010,37(8):33.
[2] 黎晗.数据挖掘在客户关系管理中的应用——以客户分类为例[J].管理世界,2015(36):82-84.
[3] 闫春,孙海棠,李亚琪.基于随机森林与RFM模型的财险客户分类管理研究[J].科技与经济,2018,31(1):56-60.
[4] 宝音图,刘真真.基于Python的客户分类和挖掘系统[J].信息与电脑,2018(15):72-76.
[5] 陈小燕,易仲强.基于 WEKA 平台的数据挖掘及其在地下水分类中的应用[J].水利科技与经济,2014,20(7):84-86.
[6] 马晶,蒲伦,徐月,李旭.基于WEKA平台的C4.5算法在影像分类中的应用[J].测绘与空间地理信息,2017,40(5):52-55.
[7] 李智勇,孙小英.ARIMA模型在批发和零售贸易餐饮业预测中的应用[J].襄樊职业技术学院学报,2006,5(6):30-31.
[8] 卢媛媛,张剑,何海燕.基于WEKA的客户分类信息系统研究[J].计算机工程与科学,2011,33(5):132-135.
[9] 杨红艳.客户管理与分类方法的研究与实现[D].大连:大连理工大学,2017.
[10] 黄亦潇,邵培基,李菁菁.基于客户价值的客户分类方法研究预测[J].2004,23(3):31-35.
[11] 石永奎,李鹏瑞,王英, et al.基于WEKA的冲击地压预测方法分析[J].煤炭技术, 2015, 05):219-21.
[12] WITTEN I H, FRANK E. Data Mining: Practical machine learning tools and techniques [M]. Morgan Kaufmann,2005.
[13] LAN H, FRANK E, HALL M.Data mining: Practical machine learning tools and techniques [M].Morgan Kaufman, Boston. 2011.
基金项目:浙江省大学生科技创新活动计划暨新苗人才计划《O2O互联网招聘 APP“实习帮”的开发与应用——基于多特征融合的企业实习信息语义相似度算法》;项目编号:2019R414051。
浙江省高等教育十三五第一批教学改革研究项目:基于创新创业导向的《连锁经营与管理》翻转课堂教学实践探索;课题编号:jg20180207。