论文部分内容阅读
聚类在机器学习和模式识别领域被广泛地研究,其以无监督的方式将数据按照相似性划分为不同的类别.特征学习是聚类任务中一个关键步骤,旨在将原始高维数据映射到低维的特征表示,同时保留数据的重要信息,使得聚类性能实现显著的提升.随着深度学习的兴起,深度神经网络凭借其强大的特征表示能力促进了深度聚类任务的发展.然而,现存的大部分深度聚类算法在特征学习的过程中忽略了特征之间的局部连接关系,使得原始数据到特征低维映射的过程中破坏了特征空间的本征结构,从而影响了聚类的性能.为了解决这一问题,本文分别针对两个先进的深度聚类算法进行基于局部结构保持的改进,提出利用局部保持正则项来约束深度特征学习,通过考虑特征之间的局部连接关系保持特征空间的本征结构,从而实现聚类性能的有效提升.具体来说,本文提出的改进算法分别为:(1)基于局部保持的深度子空间聚类算法:首先将图像数据输入深度卷积自编码器进行预训练,学习数据潜在的初始特征;然后利用预训练特征学习一个代表特征之间相似性的初始亲和图矩阵,并将其作为网络微调训练中特征的先验图结构信息;在微调训练中,该算法在预训练深度自编码器模型的基础上,加入一层基于数据自表达属性构造的全连接层网络,即自表达层,用于学习特征之间表示关系的自表达矩阵.该算法设计了一个新颖的损失函数对整个模型进行微调训练,在这个损失函数中,除了必要的深度自编码器的重构损失以外,还加入了一个局部保持损失函数对特征进行结构化约束,在网络进行微调的过程中,这个局部保持损失函数保持了预训练特征空间到微调特征空间的本征结构,改善了自表达层学习特征表示矩阵的质量,最终利用该矩阵构造亲和图并将其应用于谱聚类算法,可以有效地提升深度聚类任务的性能.(2)基于局部保持的深度嵌入聚类算法:该算法可以实现聚类任务与基于局部结构保持的特征学习在同一个深度学习框架中进行端对端的训练,同时实现深度特征学习与聚类任务.该算法首先利用逐层预训练策略预训练一个深度自编码器,分别得到网络的初始参数、潜在的预训练特征,并应用k-means算法得到初始聚类中心;然后将深度编码器作为深度特征学习的工具,利用最小化聚类软分配函数和辅助分配函数的KL散度构造聚类损失函数,并基于保持特征之间的局部连接关系加入一个局部保持正则项,在两个损失函数的共同作用下对深度模型进行微调训练,同时得到优化的特征以及聚类结果.本文首先介绍深度特征学习与聚类任务的研究背景和重要意义,分析典型的深度聚类算法的框架模型;然后,本文提出两个基于局部保持的深度聚类算法,分别对局部结构保持理论、数据的自表达属性、以及基于KL散度的聚类损失函数进行深入的推导,对算法的网络结构以及训练过程进行总结;最后本文在相关的数据集上与先进的聚类算法进行实验对比,证明了本文提出算法的有效性.