论文部分内容阅读
随着信息时代的发展,各种各样的可用性高维数据在互联网上爆炸。例如,数以百万计的车站、街道、机场和世界各地的城市的摄像头所产生的图像数据、海量的股票信息、大规模的高维度基因表达数据、商品信息、文档信息等,这对于压缩、存储、聚类和传输大量复杂的高维数据提供了原材料。聚类是数据挖掘的一项关键技术,目的是研究数据间逻辑上或物理上的相互关系,从而揭示数据间的内在联系与区别,以及为进一步的数据分析与知识发现提供重要依据。然而,高维数据的膨胀对经典的聚类算法带来了巨大的挑战,传统聚类算法的缺陷越来越明显。高维数据的稀疏性和冗余性的特点决定了簇只存在于某些低维的子空间中,如k-means等经典方法的欧式距离的相似性度量不再适用,此时再用传统聚类来处理高维数据,结果是很难预测的。如何处理高维数据的聚类,并应用在实际问题中对推动信息时代的发展有着巨大的意义。 本文围绕高维数据的聚类问题展开研究。首先针对高维数据子空间聚类的已有方法进行了学习和概括;然后根据现有子空间聚类方法的不足,主要针对多样性差,局部最优以及高类别聚类问题进行了研究和改进,提出几种基于高维数据的子空间聚类算法。具体的内容及工作安排如下: (1)为了更好的改进子空间聚类算法的全局搜索能力,且让子空间聚类算法能够提高准确性,避免陷入局部最优,本文提出了一种基于差分进化的软子空间聚类算法,即DESSC算法。该算法结合差分进化优化算法和软子空间聚类算法,将差分进化算法用于优化子空间聚类的权值矩阵,有效地提高了高维数据的聚类准确度。 (2)针对聚类算法的不稳定性和容易陷入局部最优的问题,本文引入了基于量子行为的粒子群优化算法,结合子空间聚类算法,提出了一种基于量子粒子群的软子空间聚类算法( QPSOSC),介绍了量子粒子群算法的原理以及特点,详细阐述了QPSOSC算法思想及其步骤。QPSOSC算法将 QPSO算法用于优化子空间聚类过程中的权值矩阵,有效地提高了权值矩阵的多样性和稳定性。 (3)对于高类别的高维数据且类别数不是很精确的问题,本文引入了多目标的思想,即在软子空间的基础之上,结合了多目标优化的方法 NSGA-Ⅱ,提出了基于NSGA-Ⅱ的软子空间聚类算法(NSGASC),详细介绍了该算法的相关原理,并在高类别高维数据集上进行了算法的对比实验。 本文得到如下基金资助:教育部新世纪优秀人才支持计划:(NCET-12-0920);陕西省科技新星计划:(No.2014KJXX-45);国家自然科学基金:(Nos.61272279,61371201,61272282和61203303)和“111”创新引智计划(No. B07048)。