基于WEKA平台的NaiveBayes算法在批发客户分类预测中的应用

来源 :大众科学(周刊) | 被引量 : 0次 | 上传用户:litianjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:能否精准地对批发客户来源渠道进行分类,是影响企业制定营销策略的一个重要因素。随着数据科学和人工智能的发展,机器学习技术帮助研究人员提高分类模型的准确性。在本研究中,我们基于WEKA平台,利用NaiveBayes算法构造分类模型并不断对模型进行优化,并利用未知数据进行预测。实验分析表明,基于WEKA平台利用NaiveBayes算法对批发客户来源渠道分类是可行且有效的,且分类精度较高。本文旨在利用某个区域内批发类消费者的购买行为预测消费者的购买渠道(餐饮业/零售商),进而从数据挖掘角度对区域消费需求预测理论提供借鉴与帮助。
  关键词:WEKA平台;批发客户分类;NaiveBayes算法;预测
  一、引言
  批发中的经销商来源(包括零售商和餐饮业)受到许多因素的影响,这些因素之间存在着很多复杂的联系。良好的经销渠道不仅要通过在合适的地点以合适的质量、数量和价格供应产品或服务来满足需求,而且要通过渠道成员的各种营销努力来刺激需求。根据著名的二八法则,企业80%的利润来源于20%的客户。因此,对于企业而言,对批发客户来源进行细分,并分析不同类别客户的特点和偏好,以采取不同的管理措施是很重要的。
  如今获取数据的技术和手段越来越多样化,海量的数据被收集,但怎样从庞大的数据量中发现背后所隐藏的重要信息,以此来预测未来趋势,为决策提供支持,已成为当务之急。人们需要更有效的手段对各种大量的数据进行分析、提取以挖掘其潜能。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,利用数据挖掘进行分类、预测已经成为当前研究的热点。
  数据挖掘技术可以帮助企业分析其海量的批发客户数据,获得有用的客户信息。本文采用理论与实践相结合的研究方法,应用WEKA中的分类技术,依据加州大学欧文分校(UCI)的机器学习库中的数据集http://archive.ics.uci.edu/ml/datasets/Wholesale+customers,挖掘数据库中隐含的客户分类信息。
  二、基于WEKA平台的分类模型分析
  (一)研究方法与数据来源。WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),集成了大量数据分类、聚类、关联分析挖掘等相关算法,是一个开源的机器学习与数据挖掘应用平台,自2005年获得知识探索领域最高服务奖以来得到广泛的认可与应用。本研究实验流程包含数据采集-数据预处理-实验与分析等,以上步骤均在WEKA 软件中实现,其中数据预处理主要包括数据清洗及某些属性缺失值的插值处理,实验与分析是应用基本分类机器学习算法对数据集进行交叉验证。
  研究数据来源于加州大学欧文分校(UCI)的机器学习库,该数据集来自葡萄牙里斯本市场部。数据集汇总了新鲜产品、奶制品、杂货产品、冷冻产品、熟食产品、洗涤剂和纸制品的年度支出,同时包含了批发客户所在地区和批发客户的来源渠道。我们将客户渠道作为输出变量(即预测标签)的状态,并将其他变量作为输入变量。
  (二)数据预处理。
  由于本系统的数据是直接从数据库中导出的,因此用于數据挖掘的数据已经经过ETL处理,只需要按照WEKA的要求进行简单的预处理操作就能够达到预测时的数据格式要求。由于不能直接从数据仓库中导出WEKA需要的arff格式的文件,所以先从数据仓库中将数据导出为CSV文件,然后利用WEKA的“ArffViewer”将文件转化成arff格式。对导入的数据进行Standardize标准化处理,此外,WEKA系统中的部分分类分析算法要求属性必须是nominal(名词型)数据类型的,所以需要将部分numeric(数值型)的属性进行离散化,然后转换成nominal类型。
  (三)模型构建。本研究进行批发客户的经销渠道分类预测时,选择NaiveBayes分类器,设定十次循环交叉验证(10-fold cross-validation)。对批发客户数据集进机器学习,即将数据集随机分为10份,使用8份做训练,使用2份做测试,如此循环10次,最后整体计算结果。
  该模型分为四个部分:
  1)使用RandomSubset对数据集中的输出变量进行类别处理。2)使用SMOTE处理此模型中的不平衡数据集。3)采用Resample使得数据分布偏向均匀分布。4)采用NaiveBayes分类器进行数据集实验和性能评估。
  然后使用集合模型对测试数据集进行分类和验证,并将性能与之前几个步骤的结果进行比较。
  三、实验
  在本节中,我们主要介绍了我们提出的模型的实验设置和实验结果的比较。实验数据和测试数据随机分配比例为0.8:0.2。训练数据由RandomSubset和SMOTE不平衡学习算法预处理,在Resample之后,使用NaiveBayes分类器对数据进行实验,并最终使用测试数据集进行验证。经过10次实验,获得了我们提出的模型的平均性能。
  (一)模型评价指标。分类的目的是构造分类函数或模型(即分类器),通过该分类函数或模型将数据对象映射到给定类别。该分类器的目标只有两个类别,即零售商和餐饮业。对于二分法问题,这些例子分为正面或负面指标。在实际情况中,有四种情况:1)真阳性(TP):正确归类为阳性样本数;2)误报(FP):被错误归类为阳性的样本数量;3)假阴性(FN):被错误分类的阴性样本数;4)真阴性(TN):被正确分类的阴性样本数。
  在本文中,我们将批发客户渠道为零售商定义为正面渠道,将餐饮业定义为负面渠道。
  接收器工作特性(ROC)是接收器工作特性曲线的缩写,也称为灵敏度曲线。ROC反映了连续变量综合指数的敏感性和特异性,是揭示敏感性和特异性关系的组合方法。
  接收器操作特性下的区域(AuROC)是二元分类任务中分类器优良性的通用汇总统计指标。通常,AUC的值在0.5和1.0之间。ROC曲线具有以下属性:当数据集中的正样本和负样本的分布发生变化时,它可以保持不变。通常,实际数据集是不平衡的,正样本远大于负样本(反之亦然),并且测试数据集的正样本和负样本的分布也可能随时间而变化。因此,AuROC对不平衡数据不太敏感。   (二)实验结果与分析。输出结果的相关精度指标主要体现在精准度(Precision)、召回率(Recall)、F 值(F-Measure)、ROC面积(ROC Area)上。其中,召回率表示识别正确的实例占此类别总实例的比例;F值作为综合反应精准度与召回率的指标,其值越大说明精准度和召回率都相对较高;Roc 面积指 Roc 曲线下面积,其值越接近 1,说明模型的诊断效果越好。
  从总体平均的精度结果可以看出:在NaiveBayes算法下,逐步优化后模型的评价指标均有了很大程度的提升。召回率达到0.733,能够正确对73.3%的实例进行划分;ROC面积指标上,算法面积更接近于1,表现好于之前的步骤。总的来说,以详细的精度來评价,在NaiveBayes分类器下,我们的模型展现出了很好的训练和预测效果。
  四、结论与展望
  精准的批发客户渠道细分能够为公司管理客户提供有益的信息,企业相关信息的不断积累,使得数据挖掘成为从这些信息中获取有价值的知识的重要工具。随着数据科学的兴起和发展,研究人员通过数据挖掘分析和预测客户类型已经成为一个热门话题。机器学习作为人工智能的主流方法,在今天的研究中发挥着越来越重要的作用。
  本研究以葡萄牙里斯本市场部的批发客户数据为样本,借助数据挖掘工具WEKA,通过机器学习构建针对批发客户渠道类型的分类模型,对模型进行优化,NaiveBayes算法能较好地实现实例的训练与预测,整体准确率均大于百分之八十。同时,通过详细的精度进一步比较逐步优化的性能与可靠性。实验和预测结果表明:在F值、召回率和ROC面积等方面,我们的模型展现出了很好的训练和预测效果,同时也达到了较好的精准度。希望本文的研究工作对今后的客户分类管理研究能有所帮助。
  本文的研究为信息化环境下区域消费需求预测理论研究提供了科学的思路与支撑,但是当某一批发客户拥有多种消费类型(如酒品类)需求时的分类建模还应做进一步研究,同时可以考虑扩大样本数据的类别属性个数如增加批发客户的个人特质等,来进一步提高模型分类的精准度。
  参考文献:
  [1] 朱慧云,李正扬.基于WEKA平台的会员制超市客户分类分析[J].商场现代化,2010,37(8):33.
  [2] 黎晗.数据挖掘在客户关系管理中的应用——以客户分类为例[J].管理世界,2015(36):82-84.
  [3] 闫春,孙海棠,李亚琪.基于随机森林与RFM模型的财险客户分类管理研究[J].科技与经济,2018,31(1):56-60.
  [4] 宝音图,刘真真.基于Python的客户分类和挖掘系统[J].信息与电脑,2018(15):72-76.
  [5] 陈小燕,易仲强.基于 WEKA 平台的数据挖掘及其在地下水分类中的应用[J].水利科技与经济,2014,20(7):84-86.
  [6] 马晶,蒲伦,徐月,李旭.基于WEKA平台的C4.5算法在影像分类中的应用[J].测绘与空间地理信息,2017,40(5):52-55.
  [7] 李智勇,孙小英.ARIMA模型在批发和零售贸易餐饮业预测中的应用[J].襄樊职业技术学院学报,2006,5(6):30-31.
  [8] 卢媛媛,张剑,何海燕.基于WEKA的客户分类信息系统研究[J].计算机工程与科学,2011,33(5):132-135.
  [9] 杨红艳.客户管理与分类方法的研究与实现[D].大连:大连理工大学,2017.
  [10] 黄亦潇,邵培基,李菁菁.基于客户价值的客户分类方法研究预测[J].2004,23(3):31-35.
  [11] 石永奎,李鹏瑞,王英, et al.基于WEKA的冲击地压预测方法分析[J].煤炭技术, 2015, 05):219-21.
  [12] WITTEN I H, FRANK E. Data Mining: Practical machine learning tools and techniques [M]. Morgan Kaufmann,2005.
  [13] LAN H, FRANK E, HALL M.Data mining: Practical machine learning tools and techniques [M].Morgan Kaufman, Boston. 2011.
  基金项目:浙江省大学生科技创新活动计划暨新苗人才计划《O2O互联网招聘 APP“实习帮”的开发与应用——基于多特征融合的企业实习信息语义相似度算法》;项目编号:2019R414051。
  浙江省高等教育十三五第一批教学改革研究项目:基于创新创业导向的《连锁经营与管理》翻转课堂教学实践探索;课题编号:jg20180207。
其他文献
摘要:本文阐述了煤矿立井提升钢丝绳的失效形式与机理,在此基础上,对其防护措施进行了探讨。  关键词:煤矿立井;立井提升系统;提升钢丝绳  提升钢丝绳是煤矿立井提升设备的重要组成部分,对立井提升设备的正常运转及安全作业具有至关重要的影响。在煤矿立井生产作业实践中,由于提升钢丝绳失效断裂而造成的重大煤矿安全事故如箕斗坠落井底、钢丝绳运输跑车事故等时有发生,给煤矿生产作业安全造成重大不利影响,造成巨大经
期刊
摘 要:2017年7月29日,第六届库布其国际沙漠论坛在内蒙古鄂尔多斯市库布其沙漠开幕,“库布其治沙模式”再一次吸引世界目光。“库布其治沙模式”是习近平总书记提出的“绿水青山就是金山银山”理念的成功践行,与发展伦理学有着密不可分的关系。本文分为案例背景、案例介绍、发展伦理学分析、模式与理念对发展伦理学发展的意义、结语五个部分,用发展伦理学知识分析“绿水青山就是金山银山”理念与“库布其治沙模式”案例
期刊
摘 要:《红楼梦》是中国文学史上的四大名著之一,它犹如中华民族史上的一颗璀璨的明珠,大闪光芒,大放异彩。作者曹雪芹塑造的人物形象栩栩如生,个个性格鲜明。读《红楼梦》,我们会情不自禁地走进一个清纯美丽的女儿世界。那里有直率、天真、深得人心的史湘云,有香甜扎人的“玫瑰花儿”探春,有处事圆滑的薛宝钗,有不温柔但很漂亮的晴雯,还有才貌不亚于其姐的薛宝琴……但林黛玉是曹雪芹花了大量的笔墨,倾注了大量的心血塑
期刊
摘 要:拨片、吉他配件及吉他。拨片包括手持部和拨弦部,手持部设置有防滑纹,手持部与拨弦部的交汇处为圆弧形状,手持部的厚度尺寸大于拨弦部的厚度尺寸,且拨弦部从靠近手持部的一端到远离手持部的一端,其厚度尺寸依次减小。吉他配件包括拨片组,拨片组包括至少两个上述拨片。吉他包括吉他本体和上述的拨片。本实用新型实现使用者使用时间稍长或者手指出汗时,不会让肌肤感到不适的摩擦感,还能提供自然、纤细的防滑性能。  
期刊
摘要:在一些项目开工建设时,工程机械设备是必不可少的配置之一,它能够直接影响到工程的施工进度,保证工程的施工质量,在很大程度上还可以降低工程成本。在工程机械施工过程中,很多施工单位没有充分认识到设备维修与保养的重要性,不规范的维修与保养,可以减少设备的使用寿命,影响工程进度的顺利进行。本文主要对现阶段我国工程机械维修与保养的现状进行分析,针对存在的问题点,提出几点合理的建议,以倡导施工单位重视工程
期刊
摘要:当前,我国正处于快速发展阶段,各乡镇也正向城市化发展,也因为习近平总书记提出的“全面小康”发展策略,我国各乡镇正在以前所未有的速度发展,以此同时,乡镇居民生活质量也的大了提高,各家各户也都购置了汽车,但是就因为汽车,导致乡镇公路桥梁受到严重损坏,严重影响乡镇稳定发展,所以,有关部门就针对这一问题,提高了乡镇公路桥梁养护工作管理程度,以保证乡镇可以健康稳定发展。本文就针对乡镇公路桥梁养护中,出
期刊
摘 要:旅游业对我国社会、文化与经济发展具有重要意义。采用文献计量法,依托中国知网数据库,对“旅游、景点、推荐”为主题词的901篇文献进行文献年度发文量分析、学科领域分布分析、被引频次分析、下载频次分析、基金项目分析,并使用文件计量工具-Vosview进行关键词分析和作者共引分析。结果表明,近年来旅游景点推荐文献的研究关注度越来越高,再使用Vosview进行分析得出关键词共引叠加示意图和作者共引分
期刊
前言  杨庄煤矿与朱庄煤矿隶属淮北矿业股份有限公司,均为闸河煤田矿井,两矿相邻,杨庄煤矿于2019年12月份关井, 朱庄煤矿计划于2030年6月份闭坑,两矿关井闭坑时间相差10.5年。先期关闭的杨庄煤矿,如矿井停止排水后,采空区随水位的上升,水压逐惭增大,存在矿界煤柱突破溃水的风险。  第一章 矿井概况  第一节 杨庄煤矿基本情况  杨庄煤矿位于闸河复式向斜的南部仰起端,水文地质类型为极复杂型,
期刊
摘要:加热炉运行周期常受到外界因素影响而有所变化。在此之上,本文主要以延迟焦化加热炉运行周期影响因素为出发点,从增强加热炉进料稳定性、注重低温原料性质分析、合理控制加热炉负荷率、有效应用在线除焦技术等方面,对延迟焦化加热炉运行周期提出了可行性改进建议,以便加热炉发挥出真正的作用。  关键词:运行周期;延迟焦化;加热炉;温度  前言  加热炉在其运行期间,要想使其在工业生产等环节展现出具体价值,应有
期刊
摘要:机床电气设备在实际运行的过程中,故障维修与保养工作非常重要,只有合理开展故障维修工作与保养工作,才能延长机床电气设备的使用寿命,降低故障问题发生率,减少因故障产生的损失,降低工作成本,提升经济效益。因此,在机床电气设备实际运行的过程中,应该合理开展故障维修工作与保养工作,筛选最佳的故障维修技术、保养技术,解决机床电气设备运行过程中出现的问题,提升机床电气设备的运行效率和质量,为其后续的使用夯
期刊