论文部分内容阅读
近年来,数据挖掘技术引起了信息技术领域的极大关注,这是因为数据收集和数据存储技术的快速进步使得各组织机构积累了海量数据,这些数据可以被转换成有用的信息知识进行广泛使用。转换后得到的的信息知识可以被应用到市场分析,商场统筹,工程规划和科学探索等。数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。它是一种将传统的数据分析方法与处理大量数据的复杂算法相结合的技术。关联规则技术作为数据挖掘技术的一个重要部分,在数据挖掘技术发展繁荣的情况下也得到了蓬勃发展,并向着更加广泛和深入的方向继续发展。关联规则挖掘的目的是为了从大量数据中发现项与项之间的直接有趣的关联和相关关系。关联规则无论从理论研究还是现实应用方面都有很宽广的发展前景,从狭义购物篮分析到网站的设计及其优化,甚至扩展到交通事故模式的分析或者是药物成分的关联分析等方面,它的理论研究为很多数据类型的挖掘提供了可行性,比方说从频繁模式的挖掘到闭合模式挖掘,从主观兴趣度到其它相关模式的挖掘。因而,对关联规则相关技术进行深入的研究是非常必要的。近年来,由于能够发现数据间的相关关系,并且发现的规则结构简单、易于理解,因此,关联规则成为数据挖掘领域的热点课题之一。本文对关联规则技术的优缺点进行了分析,并针对其不足之处进行了相应的改进。主要研究工作包括以下几个方面。(1)本文对经典的Apriori以及不产生候选集的FP-Growth算法进行了分析和研究:用Apriori算法挖掘频繁项集,计算量很大,需要多次遍历数据库,增加了CPU开销。FP-Growth算法虽然比Apriori算法在性能上有很大提高,它仅需要扫描两次数据库,并且避免了产生大量的候选项集。但FP-Growth算法主要的缺陷就是空间开销大。为解决此问题,本文引入了概念格,说明了用概念格的哈斯图进行频繁项集的挖掘在结果相似的基础上比Apriori算法更加简捷直观。(2)由于支持度-置信度框架下的关联规则存在一定的缺陷,于是,本文引入了兴趣度度量。首先,对现有的几种关联规则兴趣度进行深入研究和分析,指出这些兴趣度度量方法各自存在的局限,提出了一个基于兴趣度的关联规则度量方法的改进,证明了该度量方法的一些性质,并对该方法与传统方法进行了比较,指出了改进方法可以同时表示正负关联规则的判别,又对都不购买的变量不敏感,实证了新方法的特征属性。该方法较之原有方法有一定的优势。(3)由于在解决前后项集对称型问题时,普通关联规则存在着不足之处,因此,通过提出项项正相关关联规则挖掘改进了这种不足。同时提出了一种挖掘算法:ItemCoMine_AP算法,并对算法性能进行测试,对相关度量的减枝效果和实际应用效果进行分析。通过理论分析和实际测试,说明提出的关联规则能够有效的提高所生成关联规则的质量,应用效果较之普通关联规则有了明显的提高。