论文部分内容阅读
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。数据挖掘的主要目的是从数据集合中发现隐含的、事先未知的、对决策有潜在价值的用户感兴趣的知识。关联规则最初来源于对超市购物篮的分析,主要用于发现数据集中项与项之间的相关联系,是数据挖掘最先研究的问题之一,也是数据挖掘的一个热点研究方向。关联规则可以广泛地应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。如何有效地发现、理解并运用关联规则,是数据挖掘任务中的一个重要研究方面。本文在数据挖掘研究和关联规则挖掘研究的背景下,展开了对关联规则挖掘算法的研究工作。首先分析讨论了数据挖掘技术的产生与发展现状、数据挖掘的基本过程、数据挖掘的主要任务;接着介绍了关联规则挖掘的基本概念、关联规则挖掘的算法研究现状、关联规则挖掘工作的扩展和应用,数据集的水平和垂直分布,分析了经典关联规则挖掘方法Apriori算法及另一个易于实现的Relim算法。本文接着重点讨论了h-置信度度量及其产生的超团模式,论述了交叉支持的概念及其相关的扩展问题。在此基础上提出超团挖掘中可以应用事务拆分的方法对事务集进行预处理,并探讨了事务拆分的方法及其正确性的证明。通过进一步的分析,证明在基于兴趣度度量的关联规则挖掘中,如果度量具备交叉支持性质,则都可以应用事务拆分的方式对数据集做预处理。本文提出了基于Relim算法的超团挖掘算法HRelim和极大超团挖掘算法MHRelim。以超团挖掘算法为基础,通过实验,探讨了事务拆分及事务压缩对HRelim算法带来的效率提高。通过实验,说明MHRelim算法在稀疏数据集上具有良好的挖掘性能。通过在算法Apriori,Relim,FP-growth上做的大量实验,得到算法在数据集的项不同排序方式下的效率差异结果,由此猜测在关联规则挖掘算法中,如果频繁项集的获取顺序是这样的,即总是先产生含有支持度最低的项的频繁集,并且由此使得每个频繁项产生的频繁项集数量均较为接近,则算法速度最快,称之为均衡法则。均衡法则在算法的效率改进和新算法的寻找上具有很好的指导意义。