基于深度神经网络的图像聚类算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:huangyqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据聚类是最基础和最重要的数据分析手段,实现对海量数据快速智能的聚类分析对于帮助整理、摘要和储存数据具有重要意义。在大数据和人工智能快速发展的背景下,传统聚类算法逐渐不能满足人们的实际需求,基于深度神经网络的聚类方法成为当前领域的热门研究方向。现有的深度聚类算法普遍存在目标函数易退化、泛化能力弱、训练不稳定和无监督神经网络表达性不足等问题。如何设计具有强表达性、泛化性、稳定性的深度聚类算法是人工智能中至关重要的研究问题。本文致力于克服现有深度聚类存在的研究难点,从目标函数设计、数据增强技术、自步学习算法、同变性特征和自监督表示学习等方面,研究如何提升深度聚类学习特征的质量,最终提高聚类性能。本文主要创新点概括如下:1.借助欠完备自编码器对数据局部结构的保存能力,提出了具有局部结构保存的深度卷积嵌入聚类算法,以解决目标函数存在退化解的问题。很多深度聚类算法使用单独的一个聚类损失函数同时优化神经网络的参数和聚类模型的参数。这类损失函数一般存在退化解,即神经网络可以通过将所有样本映射到同一个特征点上来使损失函数值最小化。在该退化解下,深度神经网络学习的特征缺乏合理意义,得到的聚类结果也不能令人满意。为了解决该问题,我们提出使用欠完备自编码器保存数据的局部几何结构,从而防止出现退化解。提出使用自编码器的重建损失和基于KL散度的聚类损失一起对模型进行训练,前者保证数据的局部结构在特征空间得以保存,后者鼓励特征向有利于聚类任务的方向调整。通过联合优化这两项损失,实现聚类精度的不断提升。另外,设计了一种新的卷积自编码器结构,使用卷积层实现靠近图像的部分,而用全连接层实现嵌入层附近的部分,保证既能有效地从图像中提取信息,又能保存数据的局部结构。在图像和文本数据集上验证了数据局部结构保存的重要性和提出的深度嵌入聚类算法的有效性。2.通过将数据增强技术引入无监督学习,提出了基于数据增强的深度嵌入聚类框架,以解决模型对少量样本聚类效果不理想和泛化性差的问题。深度神经网络往往需要大量的样本才能学习到有意义的特征。当数据量较少时,难以训练出理想的神经网络。而深度聚类使用深度神经网络作为特征学习模型,因此也受数据量的影响。为了解决该问题,我们首次将数据增强技术引入到无监督深度聚类任务中。首先通过对现有深度聚类算法进行分析,总结出深度嵌入聚类框架,即基于自编码器模型和连接在自编码器嵌入层的聚类模型的深度聚类方法。该框架分为自编码器预训练和联合微调两个阶段。然后从流形学习角度和有监督训练的角度分析数据增强在预训练和微调阶段能够起到的积极作用,据此给出将数据增强技术分别用于这两个阶段的实现方式,从而得到基于数据增强的深度嵌入聚类框架。根据该框架实例化了五个具体的基于数据增强的深度嵌入聚类算法。大量的实验证明了数据增强技术在无监督深度聚类领域具有积极的重要作用,大幅度提升了聚类性能。实例化的五个基于数据增强的深度嵌入聚类算法在四个图像数据集上达到了当前最先进的聚类性能。3.针对边缘噪声样本影响模型训练稳定性的问题,提出了基于自适应自步学习的增强深度聚类算法。深度聚类算法一般交替进行特征学习和聚类两个过程。由于无监督学习的本质,聚类结果不能保证完全准确。而将不准确的聚类结果作为监督信号引导神经网络的训练时,存在误导神经网络的风险,而用误导的网络提取特征再做聚类时会导致聚类结果进一步恶化,从而导致整个交替训练的过程不稳定,影响最终的聚类性能。为了解决该问题,我们利用自步学习技术在每次迭代中只选择最可靠的样本用于网络的训练,排除处于类别边缘的不可靠的样本的影响。自步学习存在难以调节的超参数,为此我们提出自适应自步学习算法,利用数据的统计信息动态选择样本,从而消除超参数的影响。另外我们还设计了一个能有效防止退化解的聚类损失,类似于KMeans损失,但约束聚类中心保持不变。最后使用数据增强技术进一步提升模型的泛化性能和提取的特征的鲁棒性。开展了大量的实验,结果验证了提出的算法的有效性。消融实验展示了自适应自步学习和数据增强分别对深度聚类性能的提升作用。4.为了研究同变性特征的判别性,提出基于仿射同变自编码器的聚类算法。深度聚类的特征提取模块依赖于现有的无监督深度神经网络。然而现有的无监督神经网络处理图像的效果还不能令人满意。同时现有的神经网络都致力于学习对变换具有不变性的特征,而我们发现对变换具有同变性的特征能更好的反映数据的内在性质。直观的理解,为了保持同变性,神经网络将试图解构数据的变换因子,即学习数据的变换模式,从而需要对数据的内容进行必要的理解。因此,同变性特征比不变性特征表达的信息更全面,判别性也有望更好,也更适合聚类任务。为此,提出了仿射同变自编码器模型,以无监督的方式学习对仿射变换具有同变性的特征。目标函数由原始样本的自重建、仿射变换后的样本的自重建和对仿射函数的逼近三部分组成。其中两个自重建损失保证编码器能有效提取数据的特征,对仿射变换的逼近项负责将同变性质融入编码器中。设计了能验证特征同变性的定性实验和定量实验。通过对特征添加扰动然后可视化重建样本的方式对同变性进行定性验证;使用同变性的定义对同变性进行定量验证。实验证明该模型学习的特征具有仿射同变性和很强的判别性。通过在学到的特征上运行谱聚类算法达到了当前最先进的聚类性能。5.为了进一步解决深度聚类在背景复杂接近自然的图像数据上表现不佳的问题,提出基于图像平移的自监督表示学习算法。自监督学习方法通过预测施加在数据上的变换来为神经网络提供监督信息,实践证明用这种监督信息可以训练更加复杂的神经网络,以及在复杂数据集上学习具有判别性的特征。但现有的基于几何变换的自监督方法受变换产生的边缘效应的影响,性能还有待提升。为了解决该问题,我们设计了预测图像平移的像素个数的自监督任务,并通过对同一平移方向的图像施加相同的掩码来消除边缘效应对该任务的影响。实验证明提出的自监督方法能在复杂图像数据集上学习具有很强判别性的特征,为深度聚类提供了新的特征学习模型。
其他文献
卷积神经网络(Convolutional Neural Network,CNN)近年来发展势头迅猛,被广泛应用在图像识别、模式识别等领域。用于图像识别CNN的错误率从2010年的28%降至2016年的3%,已经优于人类5%的错误率。目前,大型CNN的参数数量已经达到数百万,并且每幅图像需要多达数百亿次操作。随着卷积神经网络应用场景的拓展和计算需求的继续增长,学术界和工业界展开了对CNN加速器的探索
随着计算机技术的发展,实现对人体行为的分析和理解,将人作为计算环节的一部分,是未来人本计算的发展趋势。近年来基于射频信号的行为分析技术引起了学者的广泛关注,其通过人体对射频信号的扰动特征来感知和分析人体行为,具有非接触、非视距、无需额外设备、不受光照影响等优点,可利用已有网络基础设施实现快速大规模低成本部署,具有很大的发展潜力。当前,射频行为分析已经被应用在日常行为感知、身份认证、呼吸心跳检测等众
无人值守地面传感器(Unattended Ground Sensors,UGS)系统通常简称为地面传感器系统,是由布放在监测区域地面上的传感器节点、汇聚节点和监控节点所组成的无线监测网络。传感器节点对监测区域的目标信息进行采集、处理,并以无线方式将监测信息上传至汇聚节点,最终上传至远程监控中心。UGS监测系统具有快速部署、使用便捷、成本较低等优点,在战场信息采集及要地监控等领域有广阔的应用前景。但
人脸属性预测在娱乐、安防、社交媒体等实际应用中扮演着重要角色。现有研究多采用分类和回归性能较好的经典机器学习算法对人脸单个属性进行预测,由于单属性预测算法提取的特征较浅,未能挖掘更深层的特征,人脸属性预测准确率难以达到现实应用需求。随着计算机技术的快速发展,深度学习算法能高效地获取与属性相关的浅层和深层特征,能够取得比经典学习算法更好的性能,但由于深度学习算法层数较深,需大量的训练样本,现有的公开
无线传感器网络(Wireless Sensor Network,WSN)具有灵活多变的拓扑结构和对复杂战场环境的强大适应能力,以WSN为搭载平台的精确干扰技术成为新一代电子对抗技术研究核心。然而,其庞大的传感器节点数目也为算法处理时效性带来巨大挑战。针对该问题,本文建立了具有高效运算性能的精确干扰框架并提出了具有分布式运算能力的合作定位算法和精确功率传输算法。具体工作和创新点如下:一、搭建了以分布
本文主要研究自主驾驶汽车的场景感知和局部路径规划这两项关键技术。其中,场景感知由于输入数据的维数较高且包含大量噪声,因此是一项极具挑战的任务。目前的场景感知算法主要利用了计算机视觉和模式识别技术。通过使用机器学习,尤其是深度学习,可大幅提高场景感知的性能。然而,深度学习中所存在的(a)数据需求量大,(b)人工标签需求量大,以及(c)缺乏可解释性这三个问题,却严重地限制了其在场景感知中的应用。为此,
近年来,以深度学习为代表的核心技术引发了第三次人工智能的浪潮。从互联网巨头到中小规模企业、从研究所到各个高校,学术界和工业界都围绕深度学习技术开展了广泛的研究和探索。虽然以TPU为代表的深度学习专用硬件层出不穷,但是GPU集群仍然是开展深度学习研发的主流平台。相比于巨头互联网公司推出的大规模定制化深度学习平台,广大科研院校和中小规模企业由于预算有限,更偏向于采用高性价比的小规模GPU集群,来构建多
城市作为区域经济、政治和文化的中心,城市居民的日常出行需求呈多样化高频次的特点,如通勤、购物、娱乐等。但公共交通拥挤、公共场所人群密集、道路交通拥堵等低出行舒适度的问题也日益突出。当前,多个城市推出实时“拥挤度”、“交通指数”等出行参考指标,城市居民可据此合理选择出行,人流密集管控、道路交通疏导等措施的实施有了较好的针对性。但这些实时监控的出行参考指标,只反映当前而没有预测其即将产生的变化,作用相
判定布尔公式的可满足性(SAT)是计算机科学领域经典的NP完全问题之一,由于众多领域的实际问题都可以转换为布尔可满足问题来求解,例如VLSI设计与验证、软件的形式验证、人工智能规划与优化等领域,因此几十年来一直是计算机理论领域的研究热点。近年来,随着布尔可满足求解技术的不断发展,软件实现的SAT求解器也逐渐走向成熟与完善,但针对某些类型的SAT实例,例如复杂3-SAT实例,存在学习时间长、求解效率
合成孔径雷达在军用领域和民用领域中都发挥着重要的作用。作为合成孔径雷达应用的重要方面,目标识别一直是研究的热点。基于机器学习的合成孔径雷达目标识别方法已经取得了非常优秀的性能。目前的合成孔径雷达目标识别技术都是以完整的目标作为处理对象。实际应用中经常出现遮挡等导致的目标残缺现象。传统的机器学习目标识别技术识别这些遮挡目标的性能会严重恶化。因此需要研究针对合成孔径雷达遮挡目标的目标识别技术。本文重点