论文部分内容阅读
聚类是机器学习中最重要的研究问题之一,关于聚类的工作一直层出不穷。大部分传统聚类算法都是直接作用于原始输入空间,而当原始输入数据属于高维空间时,它们的性能都会受到严重的负面影响。最近提出的深度聚类方法提出利用深度神经网络对原始输入数据进行特征提取,再在特征空间进行聚类任务。尽管在不同的数据集中都能取得令人满意的结果,现有的深度聚类方法都有一个共同缺陷,它们都要求提前获知数据集的聚类个数。然而,在现实应用中,聚类个数通常是未知的。为了解决这个问题,我们对现有的深度聚类算法进行了深入的分析,尝试去找到它们问题的本质。论文具体工作可概括为以下两个方面:(1)提出了深度嵌入确定聚类个数法(DED)。这是一个能够同时确定数据集聚类个数和特征学习的方法。DED方法由一个特征提取器和一个基于密度的聚类个数确定方法组成,它的特征提取器充分结合了卷积自编码器和t-SNE方法的优点,在降低原始输入数据维度的同时,能够很好地保存原始输入数据的数据结构信息和点对相似度信息,所以其特征提取器能够从原始输入数据中提取有效的低维特征用于聚类个数确定。在提取了有效低维特征后,DED方法通过一个基于密度的聚类个数判定方法对特征点集的聚类个数进行判定。DED方法是对很多现有的优秀聚类算法的补充,因为现有效果最好的深度聚类方法都需要预先知道数据集的聚类个数,而DED可以判定数据集的聚类个数。我们在多个数据集上对DED方法进行了全面的测试,实验结果证明DED方法能有效地预测数据集的类别个数,且性能远好于现有的聚类个数判定方法。(2)提出了相似度保存约束下的深度密度聚类法(DDC-SP)。这是一个能够判定数据集聚类个数且获得理想聚类结果的方法。DDC-SP的关键思路在于提取一个保存了输入数据点对相似度信息的低维特征空间,并在该特征空间中确定聚类中心和聚类标签。具体来说,DDC-SP模型包括两个部分,一个自编码器和一个相似度保存网络。其中自编码器的隐层特征是相似度保存网络的输入。在DDC-SP方法中,我们通过最小化一个带相似度保存约束的重建误差来对自编码器进行预训练,通过最小化相似度保存目标函数来对相似度保存网络进行预训练,然后,我们提取相似度保存网络的输出作为聚类特征,在该特征空间上确定聚类中心,再通过最小化一个带数据结构特征保存约束的聚类标签相关目标函数来微调整个模型,获得最终的聚类结果。大量的实验证明DDC-SP方法:1)能够准确地预测数据集的聚类个数;2)能够实现比当前最好的需要预先知道聚类个数的深度聚类算法更好或者相当的聚类结果。