论文部分内容阅读
聚类分析和关联规则挖掘作为数据挖掘技术的重要研究方向,一直受到国内外专家学者的青睐。本文重点探讨模糊C均值聚类算法(FuzzyC-means, FCM)和Apriori关联规则挖掘算法。主要工作如下:1.提出基于果蝇算法的自适应KFCM聚类方法FCM算法引入模糊隶属度使其更加适合实际应用,如今,已成为应用广泛的聚类算法之一。然而,传统的FCM聚类算法在实际应用中亦存在局限,如算法对初始值敏感、易陷入局部极小值且易受到数据分布和模糊度参数的影响等。针对算法局限性,提出基于果蝇优化算法的自适应核模糊C均值聚类方法(FOAKFCM)。首先运用高斯核函数对FCM算法的目标函数进行优化,旨在将离散属性数据从低维特征空间变换至高维特征空间,扩大特征间差异。之后利用果蝇优化算法的迭代过程代替KFCM算法的迭代过程。接着引入聚类有效性评价指标MIA对基于核的FCM算法(KFCM)的模糊度参数自适应的选取。实验结果表明,该算法提高了 FCM算法的聚类精度,聚类效果更佳。2.提出基于位置存储的Apriori算法Apriori算法现应用于多个领域,它是早期的关联规则经典算法,提出之时成功处理了频繁项集产生时的组合爆炸问题,然而Apriori算法亦出现由于多次扫描数据库产生大量候选项集而导致时间和空间浪费的问题。针对该问题,一种基于矩阵位置存储的Apriori算法(L-Apriori)被提出。首先,扫描数据库构造矩阵,而后对矩阵中非零元素位置坐标进行数组变换生成候选项集并在位置坐标中不断删除无用冗余项集,进行动态剪枝实现对数据的关联规则挖掘,减少运行时间和空间。测试结果表明,本文提出的算法可以有效减少算法运行消耗的时间和空间,提高了 Apriori算法的挖掘性能。3. FOAKFCM算法和L-Apriori算法的应用将所提出的两种算法进行结合,应用到模糊关联规则的挖掘中。首先利用提出的基于果蝇算法的自适应KFCM算法(FOAKFCM)对数值型数据进行预处理,得到模糊分区和各数据隶属度,之后运用改进后的Apriori算法L-Apriori算法对离散化后的数据进行关联规则挖掘。实验结果表明,挖掘出的关联规则均具有强关联性,验证了所提出的模糊关联规则挖掘方案的可行性和有效性。