论文部分内容阅读
随着信息技术的迅猛发展,许多商业企业都实现信息化管理。但同时,企业积累的数据也越来越多,并且呈增量发展趋势。面对海量的数据,企业却不能从中提取出潜在的、有价值的信息来辅助决策,导致了“数据丰富,知识贫乏”的现象。数据挖掘技术正好解决了企业这一难题。随着数据挖掘技术的不断成熟,数据挖掘正越来越多的应用于各类决策体系中。
本文针对一个连锁企业集团的应用需求,基于数据挖掘的理论,提出并建立了一个面向销售数据关联规则挖掘和分析的销售关联系统。该系统通过VPN虚拟专用网将总部与各地的连锁店连接起来,建立了客户/服务器的应用模式,实现了分布式的销售管理与集中式的数据分析的有机结合。客户端系统实现了订单管理、销售管理、库存管理等功能,服务端系统则实现了库存分析、销售分析及数据挖掘等高级应用功能。
在数据挖掘过程中,首先对获取的海量销售数据集合进行数据抽取和清洗工作,以选取与各个挖掘主题相关的数据及清洗数据中的噪声数据,以提升数据挖掘的效率及质量。然后在数据准备中,进行属性减约和数据转换。通过属性减约进一步压缩挖掘的对象,使挖掘的数据更加简练,质量更高,数据转换则负责将销售数据转换成适合于挖掘的形式。在此基础上,实施关联规则的Apriori算法进行挖掘,其算法主要分两个阶段,产品频繁项集的产生和强关联规则的推导。在产品频繁项集计算中,首先对销售数据进行了二维表的转换,构造每笔销售数据的特征字,实施了销售数据的简约化和规范化。然后,计算出1-项产品频繁集、2-项产品频繁集,即通过计算单一农产品的销售支持度和对在销售中出售的两个产品的同时出现的支持度的计算,建立了产品项的特征表。通过进行迭代的K-频繁项集的计算,并通过最小支持度的筛选,就获得了全部产品的频繁项集。在计算强关联规则阶段,关键是对产品频繁项集中的每个产品分别计算其与其它产品的置信度,并通过设置最小置信度的阀值,调节发现关联规则的置信程度。
本论文研究并建立的销售关联系统已在一家大型连锁集团企业得到了应用,从其海量的销售数据中发现了若干销售商品间的关联关系,为公司的销售决策提供了重要的参考依据。