基于表示学习的自然图像分类研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:savage10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类的核心是如何学习高效、鲁棒、判别力强的表示特征。性能优良的表示特征可使得后续分类任务变得极为简单。但因图像内容极为复杂,易受遮挡、光照、尺度、形变等因素影响,获得其判别能力强的鲁棒表示特征极为困难。本论文从传统视觉编码角度出发,逐步迁移至深层学习方法以获取图像更好的鲁棒表示。  级联多种底层特征是提升图像分类性能的一种有效方法,然而这种方法忽略了不同编码方法所得码字在与特定汇聚方法结合后所得特征之间的互补性。为此,本文探讨了一种针对同一种底层描述子,采用不同稀疏编码方法进行编码,而后将不同码字与对应汇聚方法结合所得特征进行多核融合的图像分类方法。文中,我们首先提出了一种新的基于显著性的编码方法,而后分析了不同编码方法所得图像特征之间的物理意义以及互补性,进而分析了在不同正则化约束下多核学习特征融合的鲁棒性问题。实验验证了我们方法的有效性及鲁棒性。  随着数据集规模增长,稀疏编码计算复杂度高成为实际应用瓶颈。为此,我们更乐于采用具有快速推理结构的自动编码器进行编码,但自动编码器在推理过程中忽略了数据之间的近邻关系,导致模型对噪声敏感,所获得表示鲁棒性差等问题。为解决该问题,本文将视觉编码中的近邻约束引入至自动编码器中,使得编码器对相似的输入能以相似的基进行编码,从而使码字具有近邻性并以此提升其判别能力。为此,我们首先分析了不同激活函数、不同稀疏正则惩罚和近邻区域大小对于所提模型学习性能的影响,而后阐述了ReLU函数为何可以在该模型中直接预测码字以及偏置在自动编码器中的重要作用,最后分析了该模型的学习效率。不同数据集上的实验验证了我们所提模型的有效性及通用性。  数据规模增长不仅体现在数据总量增多,也体现在单个数据本身维度增长。高维数据使得自动编码器学习复杂度增加,且其需更多训练样本来发现高维数据中的统计特性。为降低模型计算复杂度且更好地发现数据中的结构特性,本文提出一种基于卷积稀疏自动编码器的图像分类方法。该方法直接在二维图像上进行编码,以保持图像的结构性;启发式的稀疏化策略,使得其能快速预测图像的稀疏码图,此外也使得误差梯度反向传播算法能用于快速学习该模型。文中,我们首先分析了不同激活函数在编码过程中对于原始图像信息抑制问题,而后从不同激活函数、稀疏化区域大小和步长角度分析了所提模型的学习性能。为提升码图表达性能,我们进一步在该模型中引入了竞争编码。该模型初始化的卷积神经网络和构造的描述子比卷积稀疏编码模型初始化的网络和构造的描述子获得了更好的分类识别性能。  大数据使得复杂模型能有效学习,而学习后的复杂模型能有效抽象出数据中的统计特性,因此其可作为通用特征抽取器用于其它特定任务,从而避免了在不同数据集上都要独立训练模型以抽取特征的繁琐。为此,本文基于ImageNet数据集上训练好的深层网络模型,提出一种基于多尺度DCNNs特征稀疏FV编码的图像分类方法。该方法直接在图像不同尺度上计算DCNNs特征,而后在各尺度上计算对应的SCFV(Sparse Coding based FV)码字,再将各尺度上SCFV码字lp范数归一化后加和汇聚以形成最终图像特征。为此,我们首先在不同数据集上分析了尺度对于DCNNs特征分类识别性能的影响,而后分析了不同尺度DCNNs特征SCFV编码后所得码字直接加和汇聚存在的问题,进而提出采用lp范数以突出对各尺度下DCNNs生成过程建模起主要作用的基的贡献。在四个图像性质逐步远离训练DCNNs网络的ImageNet图像性质的数据集上验证了我们方法的可行性和鲁棒性。此外,我们方法计算复杂度低、简单有效。
其他文献
该文结合实际的应用背景,针结文体图象中字符的切分和识别问题进行研究.人们对 孤立字符的离线识别作了大量的研究工作,而走向实用化进展不快.除了单字识别率不理想外,从文本
输油管道的泄漏检测对于环境保护和维护正常的生产都起着十分重要的作用.目前,中国在输油管道监测系统的设计与开发上尚有待进一步研究.通过深入了解国内外在管道的泄漏检测
论文采用交叉学科的理论研究和技术路线,以自组织原理为系统理论依据,以人工智能和非线性动力学方法为建模支持,选择典型供需链复杂决策问题为应用背景.论文提出一种新的复杂
在该文中,我们特别关注通讯网络和制造系统中的纯离散事件系统的优化控制问题,并研究采用混合系统方法解算问题的可行性.该文的主要研究成果有:●对多个节点延迟敏感型业务,
柔性关节机器人采用轻型柔性关节,具有重量小、功耗低、负载/自重比高、安全性高等优点,比传统刚性工业机器人更适合与人和环境进行交互,因而在太空探索、医疗、家庭自动化、合
该文以炼油生产过程为应用背景,在对MSPC若干重要问题进行研究的基础上,将MSPC方法应用于炼油生产过程的实时监控和油品质量软测量中.
该文将基于BP算法的模糊控制应用于集装箱起重机的小车运行控制中,是改善机电控 制对象控制模式的一次有益尝试.仿真研究表明:系统响应快、超调量小、对参数和负载变化具有较
在实际的控制系统中,由于组成元器件的物理性能的限制及实际意义,执行器通常会出现死区现象,甚至执行器的参数随着生产过程中工作条件和环境的变化而发生变化,使得存在的死区
该文对作者亲自参与设计、调试的VTD(Video Traffic Detect)2000系统做了全面描述.该系统主要应用于城市交通监控中心,对引入监控中心的交通监控有线电视信号进行实时处理,得
该文不采用立体视觉,而是通过对单台摄像机散焦图像的分析和计算来进行目标物体的深度估计,并进一步对运动目标的深度估计和跟踪进行研究.首先该文介绍了一些计算机视觉中常