论文部分内容阅读
在机器学习中,聚类是一项重要的算法。不同于分类算法,聚类算法在所提供的数据没有标签的情况下,将数据中的各个样本点按照它们的相似度程度划分到不同的族类中。同一个簇类的数据样本点的相似度程度很高,相反,不同簇类的数据样本点相似度很低。在聚类划分的过程中,我们是无法知道其划分的标志,只能通过聚类后的结果进行人为的判断该聚类行为是按照什么标准进行的。由于现实中容易获取的数据基本是未经处理的无标签数据,即无监督数据,所以聚类的研究是必要且重要的。从聚类的方法过程来看,聚类前需要对数据样本进行相似度的刻画,这就需要对数据进行预处理。由于深度学习的发展,深度神经网络(DNN)可以用于将数据转换为更加友好的表示,它具有高度非线性变换的固有特性。将深度学习与聚类任务相结合已经成为一种新的聚类方法的研究——深度聚类。深度聚类能通过特征提取有效解决传统聚类对于复杂特征处理不好的问题,同时深度学习通过迭代训练学习方法将聚类效果提升到更好的程度。但是深度聚类方法也是有一些问题没有解决:(1)初始聚类错误伪标签会导致聚类向更坏的方法发展;(2)神经网络中模型往往只是用来进行特征提取,网络提取的特征仍有受流形空间影响的可能,特征本身可能仍存在的流形结构。(3)深度聚类方法特征描述的是图像内部间的关系,图像间的关联没有考虑到。本文主要研究了深度聚类方法中的卷积神经网络聚类方法,并针对上述的三个问题做了一些改进。分别从网络组成,聚类方法和核方法在深度聚类中应用这三个方面对卷积神经神经网络聚类方法进行了研究和实验,并且将其和已有的深度聚类方法进行了实验对比。主要研究工作和成果如下:(1)针对初始聚类错误伪标签导致聚类向更坏方法发展问题,提出了基于多任务学习的卷积神经网络聚类算法。在已有深度聚类方法中,由于需要有标签数据集进行网络的训练和学习,所以采用初次聚类结果的标签作为训练样本。但该标签可能本身是错误的,这就导致聚类因此朝着错误的方向发展。为了改善这一问题,本算法引入了多任务学习的思想和方法,使得分类方法和聚类方法相互指导学习,并且共享卷积神经网络的网络参数。另外,我们还添加了阈值,对聚类结果进行有条件的筛选,从而减少错误伪标签对聚类的负面影响。通过将该算法在图像数据集上的取得的实验结果证明,我们提出的方法确实有益于提高聚类效果。(2)针对神经网络中模型往往只是用来进行特征提取,特征本身可能仍存在的流形结构的问题,提出了基于测地线密度峰值聚类算法。选取能更好地反映出数据集内在所具有的流形结构的测地线密度峰值聚类方法对网络提取出的特征进行聚类。将该聚类方法应用到深度聚类的模型中,使用基于测地线密度峰值聚类方法替代传统聚类方法k-means,从而提出了基于测地线密度峰值的卷积神经网络聚类算法。最终在图像数据集上进行实验,实验结果证明我们提出的方法确实具有处理图像特征存在流形结构问题的能力。(3)针对常见深度聚类方法提取的特征描述的是图像内部间的关系,图像间的关联没有考虑到的问题,提出了基于核函数的卷积神经网络聚类算法。将核方法的思想带入到深度聚类的方法中,希望通过将深度网络提取出的特征再次进行核化,从而建立特征点与点之间的关系,即图像与图像之间的关系,再通过深度聚类方法进行图像聚类。将该方法应用到图像数据中,实验结果证明我们提出的方法确实有助于提高聚类效果。