论文部分内容阅读
图像分类问题是计算机视觉研究领域的核心课题之一,其应用涵盖了从简单的手写数字识别到自然图像、高光谱图像分类等众多的场景。随着各种先进计算理论和算法模型的发展,图像分类问题的解决方案越来越多样化,同时分类效果也在大幅度提升。近来,受到大规模数据广泛兴起以及计算性能突破的促进,深度学习理论正成为解决各种分类及相关问题的主要手段。卷积神经网络作为深度学习理论的关键技术之一,已逐渐成为解决图像分类问题的优选方案。但是,由于图像本身成像特质的不同,其存在形式及问题需求也不尽相同。因此,针对不同类型分类图像的数据特点开展分析,设计合理的神经网络结构是十分必要的。本文重点关注采用卷积神经网络处理图像分类问题时,数据特质差异所带来的模型设计上的不同需求,特别研究了卷积神经网络如何在控制参数规模的同时提升网络性能,以及如何针对较小规模数据使网络发挥更好的泛化效果。本文的具体研究内容安排及创新点如下:1.提出了将上下文信息引入卷积神经网络进行图像像素分类的算法。在图像像素点分类(即图像语义分割)任务中,上下文信息具有极强的空间约束性。以卷积神经网络为基础的解决方案,神经网络节点的感受野范围会直接影响图像像素点分类精度。传统的通过增加卷积层数和扩大卷积核尺寸来提升感受野范围的方案,会带来神经网络参数规模的上升,进而影响训练过程。本文提出非局部卷积核,在卷积操作中引入步长参数来控制节点感受野范围。针对上下文信息,我们还设计了多尺度感受野结合的上下文整合网络结构,并搭建了上下文感知非局部卷积神经网络,用以处理图像语义分割问题。与传统卷积神经网络相比,本文提出的方法能够在不增加卷积神经网络参数数目的情况下,扩大特征图节点的感受野范围,从而间接提升特征图的特征表达能力。实验结果表明,在包含相同规模的网络参数的情况下,本文所用方法比传统卷积神经网络获得的图像像素分类精度更高。2.提出了基于谱段差异性的高光谱图像分类算法,搭建了分段卷积神经网络模型。现有卷积神经网络处理高光谱图像分类任务时,大多将光谱波谱段信息直接进行卷积提取特征,忽略了不同波谱段取值范围的巨大差异。此举会导致网络训练过程中参数的频繁共同更新来应对巨大的输入数值差异,并就要更多的卷积核来提取不同幅值变化的局部特征。考虑到现有高光谱有标记的训练数据仍然比较有限,上述两种情况均会影响卷积神经网络的泛化性能。本文基于波谱谱段差异性分析提出一种分段设计卷积神经网络进行高光谱分类的解决方法。即将整个波谱段进行分组,之后对各个分组波段分别提取具有更好的局部表达能力的特征,并对各个分组特征与全局特征整合后训练最终的分类决策模型。通过波谱分段增强了各个分组波段数据的关联性,进而帮助减少参数共同更新的问题。对比现有解决方案的实验结果表明,高光谱数据谱段差异性先验信息的引入研究大大减少了网络模型参数规模,并提升了高光谱分类性能。3.提出了基于空域受限的组合像素对特征的高光谱图像分类算法,搭建了一个多通道的卷积神经网络框架。高光谱图像虽然没有自然图像的空间纹理信息丰富,但是其空间邻域一致性对分类问题仍然十分重要。传统的卷积神经网络解决方案直接将空间维度作为额外的卷积通道,不利于空域信息的差异化分析与高效利用。本文提出使用邻域像素对组合成结构化多像素对特征的方法,以提升局部邻域信息的利用效率。同时,我们还搭建了一个多通道的集成学习卷积神经网络框架,特别针对不同位置的像素对特征分别进行特征提取工作。此外,神经网络框架中各个通道使用的子神经网络模块没有特别限制,适合于集成各种结构的子神经网络,对不同规模的数据进行差异化处理。实验结果表明,多通道集成神经网络框架对于充分利用组合像素对特征效果显著,不同的子网络对于框架本身能够很好的适应。4.提出了全景图像多角度样本生成的数据增广方法,并搭建了批归一化卷积神经网络处理视觉导航中的前进方向预测问题。在视觉导航任务中,获取用于训练卷积神经网络所需的大量标记数据,特别是多方向的数据,是一个巨大挑战。通过多个单目相机同步获取不同角度数据的方法,实现复杂且角度控制缺乏灵活性。本文提出使用全景相机获取360~?场景信息,然后增广生成任意旋转角度训练样本的方法。此举大大减少了对于训练场景各个角度图片的采集成本。设计并采集了一个完整的训练测试数据库Spherical-Navi,用以验证算法有效性。此外,针对全景图像场景可区分性差的问题,我们采用了批量归一化神经网络模块搭建了分类模型。模拟实验和真实导航实验均验证了所设计方案的可行性。增广的数据集也在一定程度上提升了模型的泛化效果。