论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。其中关联规则挖掘是最活跃的研究方法之一,最早是由Agrawal等人针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。但随着网络技术的飞速发展,以及数据库技术的进步,使得数据挖掘需要处理的数据规模越来越大。经典关联规则挖掘算法处理海量数据时,需要消耗大量的时间和空间资源,使得挖掘效果并不理想,因此提出了许多改进策略主要有数据约简、分布式并行处理、批处理、增量式处理等。本文针对海量数据集的特性,对关联规则挖掘算法进行了研究。首先针对海量数据集具有分布倾斜的特性,提出基于密度偏差抽样的加权关联规则挖掘算法。与随机抽样相比密度偏差抽样在处理分布比较倾斜的数据集时可以产生具有代表性的样本。并用抽样时获得的局部密度计算样本的权值进行支持度计算,不需要降低最小支持度,最后采用Fk-1×F1连接方式和apriori先验知识产生频繁项集。只需扫描一次数据集。实验表明该算法在处理分布倾斜的海量数据集时,不仅执行效率高,而且提高了正确性,是一种十分有效的处理海量数据集的关联规则挖掘算法。最后将该算法应用于入侵检测系统。其次针对海量数据集具有稠密的特性,应用粒计算理论和粗糙集原理,并结合关联规则挖掘算法,提出基于粒计算思想的关联规则挖掘算法。该算法利用粒子的性质,减少了大量的候选项集,而且应用深度优先搜索策略,进行频繁项集挖掘。最后用仿真实验证明了算法的有效性。