论文部分内容阅读
在计算机视觉领域,图像语义识别(Semantic Recognition)是一项重要的图像理解任务,它是指利用计算机对图像进行处理、分析和理解,其主要包括语义分类、语义检测及语义分割等任务。在一定程度上,图像语义识别已成为计算机视觉领域各项研究与应用的基础——三维重建、人脸识别、“看图说话”等研究都把它作为基础的理论支持,而无人驾驶、无人机的广泛应用更是得益于该领域成熟的研究。 总体而言,面向图像语义识别的研究大致分为两个阶段:前深度学习时代经典的图像识别算法和深度学习时代基于神经网络的识别算法。近些年来,随着GPU硬件的发展以及大规模数据的标注,以深度学习为基础的图像语义识别技术取得了巨大的成功,网络大大克服了经典算法识别精度低的缺点,然而,现有算法仍然存在很多不足:样本标注花费了大量的人力物力、网络迁移能力弱并且功能单一。因此,本文针对上述三点不足,对现有的方法进行了深入研究,并分别从无监督学习、迁移学习以及实例分割的角度进行改进。论文的主要工作包括: 1、提出了一种类脑视觉认知启发的语义识别方法。基于对大脑视皮层结构、机理和功能的理解,在具有联想和记忆功能的卷积深度置信网络(ConvolutionalDeep Belief Network,CDBN)基础上,增加了情境特征聚类、结构特征提取、特征再选择等模块,使该无监督学习模型对语义识别更具有鲁棒性。通过对卷积核和特征图的可视化,验证和分析了CDBN模型的特征学习能力,特征聚类更是在简化网络结构的同时保留了最具有判别性的特征。此外,网络通过提取语义特征的结构信息,实现了对模糊语义的精确识别。相比于其他的无监督学习方法(HMAX模型或其他基于字典的学习方法),改进的CDBN模型具有更好更鲁棒的识别能力。 2、提出了一种基于边缘信息的迁移语义识别方法。该方法使用一个统一的神经网络对不同类型的数据集(真实照片和卡通图片)进行语义识别。对于卡通图片,颜色的多元化往往对神经网络的训练造成很大的干扰。因此,在训练过程中,网络摒弃了传统的颜色通道信息,而是通过检测和边缘提取环节,使用更加泛化的边缘信息来进行学习。相比于传统的神经网络,该方法利用鲁棒的边缘信息大大提高了网络的语义迁移能力,使网络能够有效地识别具有不同视觉表征物体的图像。 3、提出了一种改进的实例语义分割网络。多任务级联网络(Multi-taskNetwork Cascade,MNC)将检测、分割及识别任务放在了一个统一的框架中,使该模型不仅能够有效地检测出图像中的每一个实例,而且能够进行像素级别的语义分割。然而此模型仍具有不足之处:面罩分割和分类两个分支的级联结构增加了网络的耦合程度,测试过程中多尺度选择不具有自适应性。针对上述两点不足,我们将MNC模型的级联结构调整为并行结构,并且设计了一种自主选择测试尺度的方法。实验证明,改进的方法在不同标准数据集(COCO数据集以及PASCAL VOC数据集)上的识别精度均得到了提高,同时该模型也可扩展到遥感领域。 基于深度神经网络,本文提出以及改进的模型和算法为图像语义识别提供了基础的框架和功能模块,对高性能、高集成的视觉认知模型和算法的设计和实现提供了新思路,在理论和应用中都具有重要的研究意义。