论文部分内容阅读
目前已进入大数据时代,我们获取的数据变得越来越复杂,不仅面向的方面很多,数据的维度也越来越大。比如,各种类型的交易数据、基因表达数据、WEB使用数据等,它们的维度能够达到成百上千,甚至更大。聚类分析是数据挖掘一种有效手段,受维度灾难和数据稀疏性的影响,高维数据聚类给当前的聚类算法带来了巨大的挑战。一般来说,高维空间的簇结构往往存在于子空间而非整个空间,在现有研究的各类子空间聚类方法中,软子空间聚类是一个重要主题。针对现有的软子空间聚类算法都是对一个目标函数进行优化,在聚类过程中易陷入局部最优,依赖于初始聚类中心等问题,本文首先对多目标进化算法进行了改进,然后建立了高维数据聚类的多目标优化模型,以改进的进化算法为优化框架,提出了基于多目标进化算法的软子空间聚类算法,提高了聚类结果的稳定性和聚类效果,同时克服预先输入聚类个数的缺陷。论文的创新之处以及主要工作为:(1)提出了一种改进的进化算法GLEA。为了提高多目标进化算法的全局寻优能力和大规模决策变量对优化效果的影响,本文基于多目标进化算法LMEA框架,主要在两个方面进行了改进,第一,通过随机采样与非支配排序,优化了变量分解过程。第二,在优化过程中,采用levy变异策略产生子代,提高算法的全局寻优能力。通过以上两点的改进,该算法与目前较先进的多目标进化算法对比,能够更好的保持解的多样性与收敛性。(2)提出了基于GLEA的多目标软子空间聚类算法GSSC。建立与类内距离,类间距离、标准互信息(NMI)有关的三个目标函数,以改进的进化算法GLEA为优化框架,与软子空间聚类算法融合,解决高维数据的聚类问题。在人工数据集、UCI数据集、基因表达数据集上进行实验,以兰德指数(RI)、调整兰德指数(ARI)、标准互信息作为评价指标。通过与其他算法比较,证明该算法可以在高维数据上得到较优的聚类效果且不必预先确定聚类数目。