论文部分内容阅读
随着条形码技术的发展和POS(Point Of Sells)系统的普及,零售企业中的日常交易数据被大量收集,这些数据背后蕴藏着巨大的商机。作为数据挖掘中最活跃的研究方法之一,关联规则挖掘技术已被应用到零售行业。然而,零售数据具有结构复杂、海量、随时间动态更新的特性,传统的关联分析技术无法高效地处理这类数据。因此,迫切需要设计具有针对性的数据挖掘算法用以分析零售数据。本文从复杂数据类型的处理、模式的评估以及挖掘结果的解释等问题出发,对交易数据的关联分析中亟待解决的问题进行了研究。本文主要工作如下:(1)针对Apriori算法能够有效处理含有较多短模式的稀疏数据集但运行效率不高的问题,在其设计框架的基础上引入新的数据结构存储频繁项集,提出了一种高维稀疏数据频繁项集挖掘算法FIHS。该算法只需扫描一次数据集,通过优化连接剪枝操作避免产生非频繁的候选项集。理论分析和实验表明,FIHS用于高维稀疏数据集上具有挖掘速度快、存储空间少等优点。(2)针对现有频繁项集挖掘算法不能完全解决数据集动态更新和挖掘参数变化后项集的高效维护问题,提出了一种频繁项集快速更新算法SWFIUA。该算法引入滑动时间窗口概念,在充分利用业已发现的频繁项集的基础上,尽量减少数据集的扫描次数和候选项集的产生个数。实验结果表明,SWFIUA算法在提高更新效率的同时还具有简单、易于维护的特点。(3)为了提高挖掘规则的有趣性,在传统的“支持度-置信度”框架中引入兴趣度量Consine,提出了一种基于兴趣度的关联规则挖掘算法IMAR。该算法对生成规则的形式进行了限制,对强关联规则的概念进行了重新定义,并将挖掘规则分为(正)强规则、(正)弱规则和反规则。同时为了更好的利用关联规则优化业务,提出了“竞争商品模型”和“利润最大化销售模型”。在真实的交易数据集上的实验结果表明,IMAR算法和两个分析模型是有效的。