基于深度学习的聚类个数确定及聚类方法的研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:tokyo55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是机器学习中最重要的研究问题之一,关于聚类的工作一直层出不穷。大部分传统聚类算法都是直接作用于原始输入空间,而当原始输入数据属于高维空间时,它们的性能都会受到严重的负面影响。最近提出的深度聚类方法提出利用深度神经网络对原始输入数据进行特征提取,再在特征空间进行聚类任务。尽管在不同的数据集中都能取得令人满意的结果,现有的深度聚类方法都有一个共同缺陷,它们都要求提前获知数据集的聚类个数。然而,在现实应用中,聚类个数通常是未知的。为了解决这个问题,我们对现有的深度聚类算法进行了深入的分析,尝试去找到它们问题的本质。论文具体工作可概括为以下两个方面:(1)提出了深度嵌入确定聚类个数法(DED)。这是一个能够同时确定数据集聚类个数和特征学习的方法。DED方法由一个特征提取器和一个基于密度的聚类个数确定方法组成,它的特征提取器充分结合了卷积自编码器和t-SNE方法的优点,在降低原始输入数据维度的同时,能够很好地保存原始输入数据的数据结构信息和点对相似度信息,所以其特征提取器能够从原始输入数据中提取有效的低维特征用于聚类个数确定。在提取了有效低维特征后,DED方法通过一个基于密度的聚类个数判定方法对特征点集的聚类个数进行判定。DED方法是对很多现有的优秀聚类算法的补充,因为现有效果最好的深度聚类方法都需要预先知道数据集的聚类个数,而DED可以判定数据集的聚类个数。我们在多个数据集上对DED方法进行了全面的测试,实验结果证明DED方法能有效地预测数据集的类别个数,且性能远好于现有的聚类个数判定方法。(2)提出了相似度保存约束下的深度密度聚类法(DDC-SP)。这是一个能够判定数据集聚类个数且获得理想聚类结果的方法。DDC-SP的关键思路在于提取一个保存了输入数据点对相似度信息的低维特征空间,并在该特征空间中确定聚类中心和聚类标签。具体来说,DDC-SP模型包括两个部分,一个自编码器和一个相似度保存网络。其中自编码器的隐层特征是相似度保存网络的输入。在DDC-SP方法中,我们通过最小化一个带相似度保存约束的重建误差来对自编码器进行预训练,通过最小化相似度保存目标函数来对相似度保存网络进行预训练,然后,我们提取相似度保存网络的输出作为聚类特征,在该特征空间上确定聚类中心,再通过最小化一个带数据结构特征保存约束的聚类标签相关目标函数来微调整个模型,获得最终的聚类结果。大量的实验证明DDC-SP方法:1)能够准确地预测数据集的聚类个数;2)能够实现比当前最好的需要预先知道聚类个数的深度聚类算法更好或者相当的聚类结果。
其他文献
肇213区块葡萄花油层属于裂缝性低渗透油藏,投入开发以来,存在注水受效不均、低产低效井比例大及欠注井逐年增多等问题,目前已进入中高含水开采阶段,地下流体分布日趋复杂,剩
吡啶醛类席夫碱通常具有生物活性。吡啶-4-甲醛席夫碱中吡啶环上N原子具有良好的配位能力,可以与稀土元素、过渡金属配位合成具有特定功能和结构新颖的化合物。今天,人们越来
金属有机框架(metal-organic frameworks,MOFs)化合物在离子荧光识别方面具有高灵敏性,快速响应和重复利用等优点,被认为是一类有前景的荧光传感材料。合理的设计和合成具有高
联合聚类的目标是对二维列联表产生有意义的划分,可以根据行列间的对偶性同时对列联表的行和列进行分组。与传统的单向聚类相比,联合聚类可以有效识别子空间并揭示行列之间的
用户在网络中的点击和跳转可以看作是在虚拟空间中的移动,该行为往往受到兴趣的驱使,尽管人们在人类时空行为动力学的研究中取得了诸多突破性进展,但是对于虚拟空间中人类兴
隧道内发生车辆违法变道行为较露天更易引起交通事故,且事故造成的后果也更为严重,因此对车辆进行实时检测跟踪,及时发现并处理违法变道行为显得尤为重要。传统的人工抓拍方
作为一种新型储能装置,超级电容器因具有功率密度高、循环寿命长以及充放电速率快等优点而引起广泛关注。介孔碳由于具有比表面积大、孔径适中且连续可调等优点,而成为超级电
从工业革命开始,煤炭作为燃料被大量的使用,这引起了严重的环境污染,同时这也是全球气候变暖问题的主要原因之一。随着经济的快速发展,对电能的需求也越来越大,而人们环保意
受气候、环境以及成像设备的影响,获取的图像经常存在光照不均、噪声多、边缘模糊等问题,导致无法对图像进行有效的特征提取,影响重要特征表达。因此,本文选取井下图像作为光
新中国成立以来党和政府一贯重视华文教育工作,作为华文教育重要形式的“中国寻根之旅”自1999年创办以来,在不断加深海外华裔青少年对中国国情和中华文化的了解方面做出了极