论文部分内容阅读
近年来,数据挖掘逐渐进入人们的生活,而且以很快的速度发展成一门主流的技术,所以人们现在更关注于通过分析数据来研究或者预测一些行为模式。“购物篮分析”让更多的人把目光投放到关联规则挖掘上,关联规则是数据挖掘的一个经典功能,而且更多的时候就是挖掘单层的关联规则模式。然而现在,人们不仅仅对单层的关联规则模式感兴趣,可能还会对多层关联规则模式感兴趣。为了挖掘多层关联规则,本文提出将关联规则与聚类进行结合的多层关联规则挖掘新思路。首先将原始事务数据集聚类,聚类后的事务数据集通过一定的划分再用于关联规则分析,这样可以挖掘多层关联规则。为了更好适用于事务数据集的多层关联规则挖掘,本文在以上的每一个阶段都做了相关改进。本文主要在以下四个方面重点研究与讨论:1.概述了数据挖掘中关联规则、聚类以及多层关联规则挖掘的相关理论知识,并且分析了它们近几年来的学术成果。同时介绍了一些关联规则和聚类的相关算法,关联规则重点分析了Apriori和FP-Growth算法,聚类重点分析了K-Means和K-Mediods算法;2.设计出了一种专门针对SDS的相关性度量算法。针对本文采用的IBM生成数据集,为了提高聚类质量,通过改进SMC和Jaccard相关系数,计算出数据集中数据对象之间的相关性系数矩阵;3.关联规则算法的改进。在FP-Growth算法基础上提出了一些改进:针对FP-Tree建树时占用内存很大,经过合并相同支持数的节点来减小树的规模,节约空间;针对FP-Growth算法头表生成的情况,以及多次在头表中查找会消耗大量的时间,提出用哈希头表替代头表,这样能够加快查找效率;4.多层关联规则挖掘。通过将聚类与关联规则的结合,达到挖掘多层关联规则的目的。本文中,为了挖掘多层,甚至是跨层之间的关联规则,根据聚类结果将原始事务数据集划分,与其他算法划分不同的是,数据集中需要合并一个簇中的数据对象并用簇的名字代替。这样,不仅可以保留数据集中不同层之间的信息来挖掘多层关联规则,还可以减小数据集的规模。