铁路货运客户细分数据挖掘技术应用研究

来源 :科技与生活 | 被引量 : 0次 | 上传用户:tftaofeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要针对铁路货运客户信息繁杂而难以对客户进行细分管理的问题,采用数据挖掘中的聚类和分类技术,对货票库中的海量数据进行挖掘,对货运历史信息进行聚类分析,再采用贝叶斯分类器对分析结果进行分类,实现对货运客户的细分,为不同类型的货主制定相应的优惠措施,为货运管理部门提供决策的依据。
  关键词铁路货运;客户细分;数据挖掘
  中图分类号U2文献标识码A文章编号1673-9671-(2011)051-0116-01
  
  在当今竞争日益激烈的市场经济条件下,客户已经成为关系企业成败的最重要资源。客户细分作为客户关系管理的核心概念之一,是企业在明确的战略、业务模式和特定的市场中,根据客户的属性、行为、需求、偏好以及价值等因素对客户进行分类,并提供有针对性的产品、服务和营销模式的过程。因此采用一种先进适用的客户细分方法,在铁路货运客户关系管理中将具有重大的现实意义。
  数据挖掘(Data Mining),是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法,也就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘利用了来自如下一些领域的思想:统计学的抽样、估计和假设检验,人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。
  1货票数据的预处理
  采用新西兰Waikato大学开发的Weka系统对货票信息进行处理。根据铁路货运的营运特点,以及货运客户对铁路运输的贡献度和收入情况的评价,选择总标重、计费里程、运费和运费收入4个属性为分类指标。由于货主的分次托运信息可能在数据库中被拆分,因此利用预处理软件的自动合并功能,依据相同条件,将多个元组的属性合并,并组合为一个元组。在所有的客户信息中,有些数据是零担和集装箱类型,或数据属性为零的噪声数据。这些信息都需要进行删除,不加考虑。针对库中货主信息的运费和运费收入可能存在空值的情况,对其进行平均值填补。
  本文依据的货票信息为某铁路局2007至2008年间的数据。过以上预处理,最终获得55020个实例。预处理完成后的数据库表应转存为Weka专用的ARFF格式文本文件。
  2分类算法的选择和描述
  2.1算法的选择
  依据κ-means聚类算法运行速度快、算法简单等特点,以及在经济数据方面的广泛应用,结合本文实例数据量大的特征,选择κ-means聚类算法为客户细分的分析方法,利用聚类结果得出相关规律,制定不同客户的营销、管理措施。
  基于贝叶斯分类器网络结构简单,计算高效,性能优越等特点,选择该方法对货主进行分类,以快速决策优惠措施类别。
  2.2算法的描述
  聚类数据集为55020个实例。
  1)参数输入。κ-means从实例{i1,i2,..in}中随机选取n个原型{w1,w2,…wn}作为初始聚类中心,使每个聚类Cj与原型Wj对应。
  2)Repeat.
  3)For每个货票实例il,将il分给最近的原型wj所属的cj。
  4)For每个聚类cj。将原型更新为当前cj中所有实例质心点,即
  5)计算错误的函数。。
  6)Until E不再明显改变。
  货票贝叶斯网络由两部分构成,即带有n+1个节点的有向无环图G和条件概率表CPT。前者节点代表货票属性,有向边代表属性间的联系;后者每一个有父节点的节点都有一个条件概率表,代表该节点和父节点间的联系。贝叶斯网络的学习由网络结构学习和概率分布学习两部分组成,根据该网络计算,就可以对货票实例所属类别的概率进行推导。
  分类的货票实例属于每个类别的概率可以得出:
  P(Ci丨A)=P(Ci)概率最大的类别即为
  最终的分类结果。
  3客户细分的输出
  首先,以消费额或利润贡献等重要指标为依据,将客户群划分为关键客户(A)、主要客户(B)及普通客户(C)三类。
  然后,在Weka中选择经过预处理的ARFF文本,以Simple KMeans聚类算法分析数据,聚类数设为3,结果如表1。
  从表1可以看出:A类为关键客户,B类为主要客户,C类为普通客户。计费里程越长,运费收入占运费比率越高,铁路收益越好。实际货运过程中,运价包括两部分:仅与货物重量有关的始发和终到作业费,及货物杂途中运行作业费。所以,运输距离越远,前者费用占总成本的比率就越低,从而越能降低单位运输成本。对比数据挖掘结果,二者结论一致。
  最后,对聚类结果的准确度进行评估,保证客户分类的有效性。选择Weka中BayeNet分类器,设置最大父节点数为2,采用10折交叉验证来选择和评估模型。结果显示,分类器的准确率为99.9583%,得出的贝叶斯网络结构模型如图1。
  由图1可知,得出的结构模型和实际情况基本相符。
  采用另外一种分类器,即NaiveBayes(朴素贝叶斯分类器)在同等条件细建模,分类准确率为96.8562%,精度比第一张分类器稍低,但速度更快。
  在货运现场临时产生的货主信息,通过处理后可以生成待分类实例文件,利用货票贝叶斯结构模型,就能够实现对该货主的类别判定。铁路货运营销部门可以根据分类结果制定相应的营销措施,进行类别管理。
  图1铁路货票贝叶斯网络模型
  在实际应用中,分类器的选择视情况而定。对于待分类的数据量巨大且精度要求不高时,可以选择朴素贝叶斯分类器;对于需要精确度高且数据量不大的现场实时货运数据,可以采用贝叶斯网络分类器。
  4细分流程总结
  本文提出的采用数据挖掘技术进行铁路货运客户细分的方案具体处理流程如下:
  1)对货票库中随机提取的数据进行预处理。
  2)利用聚类方法将货主分类,并保存聚类结果。
  3)依据聚类结果,利用分类技术产生分类模型。
  4)基于分类模型,利用分类技术对货运现场的新信息进行类别判定。
  5)依据分类结果,对货主制定相应营销措施。
  5结论
  1)根据货运过程中货主对铁路贡献程度,采用数据挖掘技术对货票库中海量数据进行处理,得到一种实现铁路货运客户进行细分的有效可行的方案。
  2)基于分类方案对货主属性的判别,可以为铁路货运营销部门提供真实可靠、实时便捷的营销决策依据。
  3)在实际应用中,需要依据现场变化的情况,定期更新数据,建立能够最适应现场的新模型。
  参考文献
  [1]马颖.客户分类管理法[J].山东冶金,2005,27:4.
  [2]唐笑林.数据挖掘技术的研究和应用[J].华东理工大学学报,2008,34:2.
  [3]杨慧林.北京地铁10号线国贸站桥桩保护设计[J].现代隧道技术,2004,3.
  [4]李春宏.基于数据挖掘方法的中小型企业客户细分的案例研究[J].云南师范大学学报,2007,27:4.
  [5]程泽凯.基于TAN结构的启发式贝叶斯网络结构学习算法[J].计算机技术与发展,2007,17:8.
其他文献
摘 要:实物档案简单的说就是具有档案属性的实体物质,经过工作人员的收集以及整理之后成为档案。对于实物档案这一概念起源于20世纪90年代,但是也有很多档案工作者对此概念并不认同,本文主要是站在认同者角度来对实物档案数字化进行讨论。实物档案要想实现数字化,具有很多方法,比较常见的方法有扫描、图像存储等。实物档案实现数字化之后,不仅提高了档案服务的质量,同时也方便了档案的储存。本文主要从方法以及成果应用
近年来,多媒体技术的广泛运用已成为课堂教学的一大特色,很多学校甚至以教师是否有效运用多媒体技术作为评判教学质量的重要标准。而地理教学也不例外,随着多媒体技术深入课
语法是语言教学的三要素之一,也是提高学生英语语言应用能力的基础,更是提高学生英语学习效率的重要因素。所以,为了提高学生的英语学习效率和解题能力以及语言表达能力,作为
在新课程改革下,高中教学课程的开展方式也发生了很大的变化,许多的教学研究者努力寻找高效的教学方法,利用当前先进的信息技术进行教学就是其中较为突出的一种,主要对高中信
摘 要:由于公路工程项目的不断增加以及建设规模的扩大,给公路工程试验检测工作带了新的新的挑战,必须提高公路工程试验检测工作的管理水平,加大试验检测的管理力度,才可以确保公路工程试验检测工作发展的规范化和健康化。试验检测作为公路工程质量控制和验收评定的关键环节,对加快公路工程进度、降低施工成本、提高公路工程的质量具有重要的作用。同时,公路工程试验检测作为一项正在发展的新兴学科,相关人员应对公路工程试
近日来,日本大地震引发海啸、核污染等巨灾事件引发了公众对巨大自然灾害的影响、核能利用与安全等问题的普遍关注,同时央视3·15晚会曝光的“瘦肉精”事件引发了公众对食品安全的忧虑和关切。  2011中国科协热点问题学术报告会现场  针对这些公众关注的热点问题,3月29日,中国科协在北京中国科技会堂举办2011中国科协热点问题学术报告会,邀请中国科学院计算地球动力学重点实验室主任孙文科教授,中国工程院院
下咽部异物是耳鼻咽喉科常见疾病,大多数下咽部异物经间接喉镜下能诊断取出。但少数咽反射极敏感、异物较小且部位隐蔽者,有时难以发现及取出异物,特别是儿童及老年病人治疗多棘
近日,市委常委会专题听取柳州高新技术产业开发区关于创建创新型特色园区的工作汇报,同意创建柳州创新型特色园区,并要求园区力争明年规模以上工业总产值超1000亿元。   市委书记陈刚,市委副书记、市长郑俊康,市委副书记苏海棠,市委常委汪正荣、何辛幸、苏爱群、周惠峰、崔放明、杜伟、刘传林、李楚、刘健生、董旭辉、崔钢等出席会议。  胡锦朝、周卓新、王柳平等市领导列席会议。  近年来,柳州高新区经济持续增长
摘 要:本文把风机干燥装置置于洗碗机的内胆上,有效的解决了洗碗机干燥性方面的问题,打破了传统方法的局限性,为提高洗碗机干燥效率方面提供了新的研究思路和方法。  关键词:洗碗机;干燥效率;风机干燥装置  0 引言  随着科技技术的蓬勃发展,人们对生活品质的要求逐渐提高,洗碗机在生活中也普遍存在,其自身省时省力的优点,深受人们的喜爱,尤其对于欧美国家的一些家庭,洗碗机的存在率超过69%。根据国家标准,
摘 要:建筑工程施工的过程中,水热地暖系统的施工质量对整个建筑工程的使用功能会产生十分重大的影响,在这样的情况下,就必须要在施工的过程中重视水热地暖的质量控制工作,必须要采取有效的措施保证施工的规范性和标准性,只有这样,工程的施工质量才能更好的满足相关标准和规范的要求。本文主要分析了水热地暖系统的施工质量控制,以供参考和借鉴。  关键词:水热地暖系统;原材料;施工;质量控制  按照地暖系统热媒的差