论文部分内容阅读
摘 要针对铁路货运客户信息繁杂而难以对客户进行细分管理的问题,采用数据挖掘中的聚类和分类技术,对货票库中的海量数据进行挖掘,对货运历史信息进行聚类分析,再采用贝叶斯分类器对分析结果进行分类,实现对货运客户的细分,为不同类型的货主制定相应的优惠措施,为货运管理部门提供决策的依据。
关键词铁路货运;客户细分;数据挖掘
中图分类号U2文献标识码A文章编号1673-9671-(2011)051-0116-01
在当今竞争日益激烈的市场经济条件下,客户已经成为关系企业成败的最重要资源。客户细分作为客户关系管理的核心概念之一,是企业在明确的战略、业务模式和特定的市场中,根据客户的属性、行为、需求、偏好以及价值等因素对客户进行分类,并提供有针对性的产品、服务和营销模式的过程。因此采用一种先进适用的客户细分方法,在铁路货运客户关系管理中将具有重大的现实意义。
数据挖掘(Data Mining),是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法,也就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘利用了来自如下一些领域的思想:统计学的抽样、估计和假设检验,人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。
1货票数据的预处理
采用新西兰Waikato大学开发的Weka系统对货票信息进行处理。根据铁路货运的营运特点,以及货运客户对铁路运输的贡献度和收入情况的评价,选择总标重、计费里程、运费和运费收入4个属性为分类指标。由于货主的分次托运信息可能在数据库中被拆分,因此利用预处理软件的自动合并功能,依据相同条件,将多个元组的属性合并,并组合为一个元组。在所有的客户信息中,有些数据是零担和集装箱类型,或数据属性为零的噪声数据。这些信息都需要进行删除,不加考虑。针对库中货主信息的运费和运费收入可能存在空值的情况,对其进行平均值填补。
本文依据的货票信息为某铁路局2007至2008年间的数据。过以上预处理,最终获得55020个实例。预处理完成后的数据库表应转存为Weka专用的ARFF格式文本文件。
2分类算法的选择和描述
2.1算法的选择
依据κ-means聚类算法运行速度快、算法简单等特点,以及在经济数据方面的广泛应用,结合本文实例数据量大的特征,选择κ-means聚类算法为客户细分的分析方法,利用聚类结果得出相关规律,制定不同客户的营销、管理措施。
基于贝叶斯分类器网络结构简单,计算高效,性能优越等特点,选择该方法对货主进行分类,以快速决策优惠措施类别。
2.2算法的描述
聚类数据集为55020个实例。
1)参数输入。κ-means从实例{i1,i2,..in}中随机选取n个原型{w1,w2,…wn}作为初始聚类中心,使每个聚类Cj与原型Wj对应。
2)Repeat.
3)For每个货票实例il,将il分给最近的原型wj所属的cj。
4)For每个聚类cj。将原型更新为当前cj中所有实例质心点,即
5)计算错误的函数。。
6)Until E不再明显改变。
货票贝叶斯网络由两部分构成,即带有n+1个节点的有向无环图G和条件概率表CPT。前者节点代表货票属性,有向边代表属性间的联系;后者每一个有父节点的节点都有一个条件概率表,代表该节点和父节点间的联系。贝叶斯网络的学习由网络结构学习和概率分布学习两部分组成,根据该网络计算,就可以对货票实例所属类别的概率进行推导。
分类的货票实例属于每个类别的概率可以得出:
P(Ci丨A)=P(Ci)概率最大的类别即为
最终的分类结果。
3客户细分的输出
首先,以消费额或利润贡献等重要指标为依据,将客户群划分为关键客户(A)、主要客户(B)及普通客户(C)三类。
然后,在Weka中选择经过预处理的ARFF文本,以Simple KMeans聚类算法分析数据,聚类数设为3,结果如表1。
从表1可以看出:A类为关键客户,B类为主要客户,C类为普通客户。计费里程越长,运费收入占运费比率越高,铁路收益越好。实际货运过程中,运价包括两部分:仅与货物重量有关的始发和终到作业费,及货物杂途中运行作业费。所以,运输距离越远,前者费用占总成本的比率就越低,从而越能降低单位运输成本。对比数据挖掘结果,二者结论一致。
最后,对聚类结果的准确度进行评估,保证客户分类的有效性。选择Weka中BayeNet分类器,设置最大父节点数为2,采用10折交叉验证来选择和评估模型。结果显示,分类器的准确率为99.9583%,得出的贝叶斯网络结构模型如图1。
由图1可知,得出的结构模型和实际情况基本相符。
采用另外一种分类器,即NaiveBayes(朴素贝叶斯分类器)在同等条件细建模,分类准确率为96.8562%,精度比第一张分类器稍低,但速度更快。
在货运现场临时产生的货主信息,通过处理后可以生成待分类实例文件,利用货票贝叶斯结构模型,就能够实现对该货主的类别判定。铁路货运营销部门可以根据分类结果制定相应的营销措施,进行类别管理。
图1铁路货票贝叶斯网络模型
在实际应用中,分类器的选择视情况而定。对于待分类的数据量巨大且精度要求不高时,可以选择朴素贝叶斯分类器;对于需要精确度高且数据量不大的现场实时货运数据,可以采用贝叶斯网络分类器。
4细分流程总结
本文提出的采用数据挖掘技术进行铁路货运客户细分的方案具体处理流程如下:
1)对货票库中随机提取的数据进行预处理。
2)利用聚类方法将货主分类,并保存聚类结果。
3)依据聚类结果,利用分类技术产生分类模型。
4)基于分类模型,利用分类技术对货运现场的新信息进行类别判定。
5)依据分类结果,对货主制定相应营销措施。
5结论
1)根据货运过程中货主对铁路贡献程度,采用数据挖掘技术对货票库中海量数据进行处理,得到一种实现铁路货运客户进行细分的有效可行的方案。
2)基于分类方案对货主属性的判别,可以为铁路货运营销部门提供真实可靠、实时便捷的营销决策依据。
3)在实际应用中,需要依据现场变化的情况,定期更新数据,建立能够最适应现场的新模型。
参考文献
[1]马颖.客户分类管理法[J].山东冶金,2005,27:4.
[2]唐笑林.数据挖掘技术的研究和应用[J].华东理工大学学报,2008,34:2.
[3]杨慧林.北京地铁10号线国贸站桥桩保护设计[J].现代隧道技术,2004,3.
[4]李春宏.基于数据挖掘方法的中小型企业客户细分的案例研究[J].云南师范大学学报,2007,27:4.
[5]程泽凯.基于TAN结构的启发式贝叶斯网络结构学习算法[J].计算机技术与发展,2007,17:8.
关键词铁路货运;客户细分;数据挖掘
中图分类号U2文献标识码A文章编号1673-9671-(2011)051-0116-01
在当今竞争日益激烈的市场经济条件下,客户已经成为关系企业成败的最重要资源。客户细分作为客户关系管理的核心概念之一,是企业在明确的战略、业务模式和特定的市场中,根据客户的属性、行为、需求、偏好以及价值等因素对客户进行分类,并提供有针对性的产品、服务和营销模式的过程。因此采用一种先进适用的客户细分方法,在铁路货运客户关系管理中将具有重大的现实意义。
数据挖掘(Data Mining),是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法,也就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘利用了来自如下一些领域的思想:统计学的抽样、估计和假设检验,人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。
1货票数据的预处理
采用新西兰Waikato大学开发的Weka系统对货票信息进行处理。根据铁路货运的营运特点,以及货运客户对铁路运输的贡献度和收入情况的评价,选择总标重、计费里程、运费和运费收入4个属性为分类指标。由于货主的分次托运信息可能在数据库中被拆分,因此利用预处理软件的自动合并功能,依据相同条件,将多个元组的属性合并,并组合为一个元组。在所有的客户信息中,有些数据是零担和集装箱类型,或数据属性为零的噪声数据。这些信息都需要进行删除,不加考虑。针对库中货主信息的运费和运费收入可能存在空值的情况,对其进行平均值填补。
本文依据的货票信息为某铁路局2007至2008年间的数据。过以上预处理,最终获得55020个实例。预处理完成后的数据库表应转存为Weka专用的ARFF格式文本文件。
2分类算法的选择和描述
2.1算法的选择
依据κ-means聚类算法运行速度快、算法简单等特点,以及在经济数据方面的广泛应用,结合本文实例数据量大的特征,选择κ-means聚类算法为客户细分的分析方法,利用聚类结果得出相关规律,制定不同客户的营销、管理措施。
基于贝叶斯分类器网络结构简单,计算高效,性能优越等特点,选择该方法对货主进行分类,以快速决策优惠措施类别。
2.2算法的描述
聚类数据集为55020个实例。
1)参数输入。κ-means从实例{i1,i2,..in}中随机选取n个原型{w1,w2,…wn}作为初始聚类中心,使每个聚类Cj与原型Wj对应。
2)Repeat.
3)For每个货票实例il,将il分给最近的原型wj所属的cj。
4)For每个聚类cj。将原型更新为当前cj中所有实例质心点,即
5)计算错误的函数。。
6)Until E不再明显改变。
货票贝叶斯网络由两部分构成,即带有n+1个节点的有向无环图G和条件概率表CPT。前者节点代表货票属性,有向边代表属性间的联系;后者每一个有父节点的节点都有一个条件概率表,代表该节点和父节点间的联系。贝叶斯网络的学习由网络结构学习和概率分布学习两部分组成,根据该网络计算,就可以对货票实例所属类别的概率进行推导。
分类的货票实例属于每个类别的概率可以得出:
P(Ci丨A)=P(Ci)概率最大的类别即为
最终的分类结果。
3客户细分的输出
首先,以消费额或利润贡献等重要指标为依据,将客户群划分为关键客户(A)、主要客户(B)及普通客户(C)三类。
然后,在Weka中选择经过预处理的ARFF文本,以Simple KMeans聚类算法分析数据,聚类数设为3,结果如表1。
从表1可以看出:A类为关键客户,B类为主要客户,C类为普通客户。计费里程越长,运费收入占运费比率越高,铁路收益越好。实际货运过程中,运价包括两部分:仅与货物重量有关的始发和终到作业费,及货物杂途中运行作业费。所以,运输距离越远,前者费用占总成本的比率就越低,从而越能降低单位运输成本。对比数据挖掘结果,二者结论一致。
最后,对聚类结果的准确度进行评估,保证客户分类的有效性。选择Weka中BayeNet分类器,设置最大父节点数为2,采用10折交叉验证来选择和评估模型。结果显示,分类器的准确率为99.9583%,得出的贝叶斯网络结构模型如图1。
由图1可知,得出的结构模型和实际情况基本相符。
采用另外一种分类器,即NaiveBayes(朴素贝叶斯分类器)在同等条件细建模,分类准确率为96.8562%,精度比第一张分类器稍低,但速度更快。
在货运现场临时产生的货主信息,通过处理后可以生成待分类实例文件,利用货票贝叶斯结构模型,就能够实现对该货主的类别判定。铁路货运营销部门可以根据分类结果制定相应的营销措施,进行类别管理。
图1铁路货票贝叶斯网络模型
在实际应用中,分类器的选择视情况而定。对于待分类的数据量巨大且精度要求不高时,可以选择朴素贝叶斯分类器;对于需要精确度高且数据量不大的现场实时货运数据,可以采用贝叶斯网络分类器。
4细分流程总结
本文提出的采用数据挖掘技术进行铁路货运客户细分的方案具体处理流程如下:
1)对货票库中随机提取的数据进行预处理。
2)利用聚类方法将货主分类,并保存聚类结果。
3)依据聚类结果,利用分类技术产生分类模型。
4)基于分类模型,利用分类技术对货运现场的新信息进行类别判定。
5)依据分类结果,对货主制定相应营销措施。
5结论
1)根据货运过程中货主对铁路贡献程度,采用数据挖掘技术对货票库中海量数据进行处理,得到一种实现铁路货运客户进行细分的有效可行的方案。
2)基于分类方案对货主属性的判别,可以为铁路货运营销部门提供真实可靠、实时便捷的营销决策依据。
3)在实际应用中,需要依据现场变化的情况,定期更新数据,建立能够最适应现场的新模型。
参考文献
[1]马颖.客户分类管理法[J].山东冶金,2005,27:4.
[2]唐笑林.数据挖掘技术的研究和应用[J].华东理工大学学报,2008,34:2.
[3]杨慧林.北京地铁10号线国贸站桥桩保护设计[J].现代隧道技术,2004,3.
[4]李春宏.基于数据挖掘方法的中小型企业客户细分的案例研究[J].云南师范大学学报,2007,27:4.
[5]程泽凯.基于TAN结构的启发式贝叶斯网络结构学习算法[J].计算机技术与发展,2007,17:8.