论文部分内容阅读
随着信息技术的发展,现实生活中产生了大量的数据,为了从这些数据中获取有用的信息,数据挖掘技术应运产生。聚类分析作为数据挖掘技术的重要组成部分,在各个领域都得到了广泛地应用。由于现实生活中数据集的动态变化以及数据集中数据维数不断增加,传统的聚类分析算法已经无法很好的适应不断增加的数据集的聚类分析。因此,需要提出合理有效的聚类分析算法来适应高维动态数据集的聚类分析。对高维动态数据集进行聚类分析,首先要对高维数据进行降维操作,简化数据处理计算的复杂度,避免维数灾难;然后通过增量聚类的方式对动态变化的数据集进行聚类操作,避免不要的重复迭代过程,提高算法的运行效率。因此,本文分别提出数据降维算法以及增量聚类分析算法来实现对高维动态数据的聚类分析。针对数据维数较大的问题,为减少数据计算量,一般采用数据降维方式对高维数据进行降维。传统的数据降维算法LLE算法采用邻接点构建局部权值矩阵实现数据降维操作,因此LLE算法在降维过程中受噪声数据影响较为严重。同时LLE算法构建局部权值矩阵的过程中只考虑了数据之间欧氏距离而没有考虑数据之间密度关系,使得LLE算法无法适应密度分布不均匀数据集。为了避免LLE算法的缺陷,本文在LLE算法的基础上提出了一种可适应含噪声数据且密度分布不均匀数据集的数据降维算法——DKLLE。DKLLE采用改进的Dijkstra距离考虑数据之间的密度关系,从而可以有效处理密度分布不均匀的数据集,并且采用K-邻居图避免邻接点中噪声数据对降维结果的影响。通过仿真实验证明了 DKLLE算法在处理密度不均匀数据时具有很好的鲁棒性。K-means算法是经典的聚类分析算法。K-means算法根据预先设置数据集中簇的中心点和数据中簇的个数,通过不断迭代的方式更新聚类的结果,直到目标函数收敛输出聚类结果。由于K-means算法对于每个变化的数据都要重新进行迭代,因此K-means算法对于增量数据的聚类分析效率较差,同时在迭代的过程中,容易出现目标函数的局部最优问题。本文提出了一种基于K-means算法的改进聚类分析算法——IK-means。IK-means算法首先将数据进行缓存并将缓存中数据进行采用DKLLE算法进行降维操作,然后针对降维后的数据进行聚类分析。在聚类分析的过程中,IK-means算法无需预先设置簇的个数,而是利用缓存区实现对数据集聚类个数k的动态调整。在迭代的过程中,IK-means算法采用模拟退火算法可以有效的避免算法出现局部最优的问题。通过仿真实验,证明了 IK-means算法可以有效实现对动态高维数据集的聚类,并可以避免局部最优。