论文部分内容阅读
无监督学习是计算机视觉中的重要研究课题,图像聚类作为无监督学习中的典型应用近年来得到了广泛的关注和快速的发展。在传统图像聚类方法中,基于多视角张量分析的子空间聚类方法将多视图聚类性能提升到了更高的水平,然而,以往基于多视角张量分析的算法是在低秩表示理论的线性假设基础上发展起来的,存在当真实数据采样于多个非线性子空间时其性能不佳的问题。因此本文针对图像聚类中以往基于多视角张量分析的子空间聚类方法无法处理非线性情况的问题展开研究。与此同时,图像检索作为另一常用的无监督学习应用,同样存在索引方面的多视角融合问题,以往方法难以捕获索引视图间的高阶信息,导致多视角索引利用不够充分。针对该问题,本文对图像检索中能否运用图像聚类中的多视角张量分析方法进行探究。此外,深度学习在各个领域都表现出优越的性能,但目前对深度学习用于聚类的研究还比较少,以往存在的深度聚类框架也难以嵌入少量监督信息以进一步提高聚类性能,因此本文对深度聚类的框架展开分析研究。综上,本文对无监督学习中的多视角张量分析和深度聚类分析进行研究,研究内容和主要贡献包括以下几个方面:第一,提出了基于核化多视角张量分析的多视角聚类方法。针对以往算法非线性情况下性能较差的情况,本文重写了多视角子空间聚类中的优化问题,将原始数据用核函数映射到更接近线性的高维子空间,在高维子空间中进行自表示系数的求解;针对核化后的新问题,本文提出了一种基于交替方向乘子法的有效优化算法;为了进一步研究本文所提核化多视角张量分析聚类算法的可扩展性,本文将算法进行了扩展。实验表明,本文算法改进了多视角聚类的性能,在8个包括人脸、场景和一般目标的聚类数据集上评价指标均超过了当前流行的其他方法甚至获得了突破性的提升,NMI和ACC平均达到96.99%和93.8%,在ACC上超过以往最好方法约9.2%,收敛快速性和参数鲁棒性也通过实验得到了验证。第二,提出了基于张量分析的多视角索引融合方法。针对图像检索中以往索引融合方法难以探究视角间高阶信息的问题,本文对索引融合优化问题施加张量核范数约束,在不增加计算量的同时捕获不同视角在统一张量空间的高阶相关性。实验表明,本文算法与以往流行方法具有可比甚至更好的性能,在Holidays、Ukbench和Market-1501数据集上评价指标分别达到94.7%(mAp)、3.49(NS-Score)和50.92%(单查询mAp)。第三,提出了基于深度学习的深度聚类网络。针对现有的深度聚类算法一般是多阶段且难以嵌入监督信息以提升聚类性能的问题,本文提出的深度聚类框架将图像聚类中的特征学习和聚簇分类统一起来实现端到端的训练,同时加入监督网络分支,使得多种不同类型的监督信息都可以通过该分支嵌入到网络中来提高聚类的性能。实验表明,本文含有分类分支的深度聚类算法提高了聚类的性能,数据集Sun-397和自建库ImageNet-100、Caltech-256上的聚类性能在采用全部监督信息的情况下分别有了9.1%、10.0%和5.8%的提升。