论文部分内容阅读
图像分类的核心是如何学习高效、鲁棒、判别力强的表示特征。性能优良的表示特征可使得后续分类任务变得极为简单。但因图像内容极为复杂,易受遮挡、光照、尺度、形变等因素影响,获得其判别能力强的鲁棒表示特征极为困难。本论文从传统视觉编码角度出发,逐步迁移至深层学习方法以获取图像更好的鲁棒表示。 级联多种底层特征是提升图像分类性能的一种有效方法,然而这种方法忽略了不同编码方法所得码字在与特定汇聚方法结合后所得特征之间的互补性。为此,本文探讨了一种针对同一种底层描述子,采用不同稀疏编码方法进行编码,而后将不同码字与对应汇聚方法结合所得特征进行多核融合的图像分类方法。文中,我们首先提出了一种新的基于显著性的编码方法,而后分析了不同编码方法所得图像特征之间的物理意义以及互补性,进而分析了在不同正则化约束下多核学习特征融合的鲁棒性问题。实验验证了我们方法的有效性及鲁棒性。 随着数据集规模增长,稀疏编码计算复杂度高成为实际应用瓶颈。为此,我们更乐于采用具有快速推理结构的自动编码器进行编码,但自动编码器在推理过程中忽略了数据之间的近邻关系,导致模型对噪声敏感,所获得表示鲁棒性差等问题。为解决该问题,本文将视觉编码中的近邻约束引入至自动编码器中,使得编码器对相似的输入能以相似的基进行编码,从而使码字具有近邻性并以此提升其判别能力。为此,我们首先分析了不同激活函数、不同稀疏正则惩罚和近邻区域大小对于所提模型学习性能的影响,而后阐述了ReLU函数为何可以在该模型中直接预测码字以及偏置在自动编码器中的重要作用,最后分析了该模型的学习效率。不同数据集上的实验验证了我们所提模型的有效性及通用性。 数据规模增长不仅体现在数据总量增多,也体现在单个数据本身维度增长。高维数据使得自动编码器学习复杂度增加,且其需更多训练样本来发现高维数据中的统计特性。为降低模型计算复杂度且更好地发现数据中的结构特性,本文提出一种基于卷积稀疏自动编码器的图像分类方法。该方法直接在二维图像上进行编码,以保持图像的结构性;启发式的稀疏化策略,使得其能快速预测图像的稀疏码图,此外也使得误差梯度反向传播算法能用于快速学习该模型。文中,我们首先分析了不同激活函数在编码过程中对于原始图像信息抑制问题,而后从不同激活函数、稀疏化区域大小和步长角度分析了所提模型的学习性能。为提升码图表达性能,我们进一步在该模型中引入了竞争编码。该模型初始化的卷积神经网络和构造的描述子比卷积稀疏编码模型初始化的网络和构造的描述子获得了更好的分类识别性能。 大数据使得复杂模型能有效学习,而学习后的复杂模型能有效抽象出数据中的统计特性,因此其可作为通用特征抽取器用于其它特定任务,从而避免了在不同数据集上都要独立训练模型以抽取特征的繁琐。为此,本文基于ImageNet数据集上训练好的深层网络模型,提出一种基于多尺度DCNNs特征稀疏FV编码的图像分类方法。该方法直接在图像不同尺度上计算DCNNs特征,而后在各尺度上计算对应的SCFV(Sparse Coding based FV)码字,再将各尺度上SCFV码字lp范数归一化后加和汇聚以形成最终图像特征。为此,我们首先在不同数据集上分析了尺度对于DCNNs特征分类识别性能的影响,而后分析了不同尺度DCNNs特征SCFV编码后所得码字直接加和汇聚存在的问题,进而提出采用lp范数以突出对各尺度下DCNNs生成过程建模起主要作用的基的贡献。在四个图像性质逐步远离训练DCNNs网络的ImageNet图像性质的数据集上验证了我们方法的可行性和鲁棒性。此外,我们方法计算复杂度低、简单有效。