论文部分内容阅读
随着数据库技术的日益成熟和管理信息系统的广泛普及,人类积累的数据量正在以指数级的速度增长。面临浩渺无际的数据,人们渴望得到从数据中来一个去粗存精、去伪存真的技术。数据挖掘便应运而生了。数据挖掘是从数据中析取、识别和发现潜在正确和有用、前所未知的、最终可理解的知识(规则或模型)的过程。关联规则挖掘是数据挖掘中最活跃的研究方法之一。它是由Agrawal于1993年提出的。关联规则挖掘用于发现交易数据库中不同项目集之间的关系。关联规则的算法可按照需不需要产生候选项集的做法分为两类,以FP(频繁模式)树法与类Apriod方法为代表。此二者最主要的差异在于,FP树法并不产生候选项集,后者是需要产生候选项集的方法。本文在数据挖掘研究的基础上深入研究了关联规则挖掘,着重对经典关联规则算法中的Apriori算法进行了深入研究,对它的性能进行了分析,根据它的不足之处提出了两个新的改进算法。论文的主要内容如下:1)对数据挖掘的定义、过程、技术分类以及发展趋势进行了综述。2)对关联规则挖掘的定义,性质、挖掘过程、挖掘算法以及研究现状进行了综述。3)对经典的关联规则算法Apriori算法进行了详细的介绍,并分析了它的特点,同时还介绍了该算法的一些改进算法。4)根据Op-Apriori算法的特点,提出了Om-Apriori算法;根据MApriori算法的特点,提出了SMApriori算法。本文的主要创新点如下:1)根据Op-Apriori算法的特点,提出了Om-Apriori算法,用MAT算法来改进Op-Apriori算法中前两项频繁项集的生成,用文献[34]中的方法来改进κ(κ≥3)-频繁项目集的生成,Om-Apriori算法使得算法的效率进一步提高。2)根据MApriori算法的特点,提出了SMApriori算法,该算法利用不是所有的项和事务都对产生频繁项集有帮助的性质来缩小布尔矩阵的方法,使得算法的时间复杂度和空间复杂度都有所减少,从而提高了算法的效率。