论文部分内容阅读
场景,包括自然场景(如海岸、田野、森林或街道等)和室内场景(如卧室、餐厅和厨房等),是一种抽象概念,一般由多种相对具体的物体或其它中层概念(如人、汽车、天空、水、树等)组成。场景识别是指让计算机自动预测图像中的场景概念并标注图像,相对于物体等中层概念,抽象的场景概念的识别是更具挑战性的问题。由于低层视觉特征和高层场景概念之间存在着“语义鸿沟”,因此由视觉到场景概念的预测一般需要多步推理实现,包括底层视觉到中层语义概念再到高层场景概念的逐步推理。然而中层语义的推理需要大量的局部图像标注,目前难以满足。但让局部图像继承全局图像的场景概念,利用弱监督训练局部模型,学习得到局部场景概念概率描述,可以解决局部标注不足的问题。本文基于弱监督洲练局部模型,为解决场景识别中的抽象性、类内差异性及类间相似性问题,深入开展由局部到全局的场景识别理论和技术研究,提出了基于共生字典编码去噪的局部特征增强方法、联合多特征及空间上下文关系建模的局部特征增强方法、多卷积神经网络多尺度空间上下文关系建模的局部到全局的特征融合方法和局部到全局的卷积神经网络模型训练方法。具体方法总结如下: (1)提出了基于共生字典去噪的局部特征增强方法。基于图像块训练局部语义模型会导致概念共生,而概念共生中导致场景类内差异性的部分可以看作是一种噪音。为解决局部概念共生噪音问题,本文基于共生字典编码并重构语义描述,以实现噪音滤除。面向大规模识别任务,本文还提出了一种基于字典编码的核函数特征嵌入技术。实验表明,去噪后的语义描述能有效提升场景识别准确率,核函数嵌入后的方法更适合大规模场景识别任务。 (2)提出了联合多特征及空间上下文建模的局部特征增强方法。为解决因局部概念共生导致的类间相似性问题,本文提出了一种联合多特征及空间上下文关系建模的方法,该方法基于马尔科夫随机场,探索语义描述的空间上下文及多特征上下文关系,实现了含上下文关系的语义描述间的有机融合,最终得到具有类间区分性且含稳定共生的语义描述,实现了场景识别正确率的提升。 (3)提出了基于多卷积神经网络(convolutional neural network,CNN)多尺度空间上下文建模的局部到全局特征融合方法。为解决传统方法中混合高斯因模型冗余导致的训练及测试速度慢,且识别正确率低的问题,本文提出了一种应用神经网络模型学习场景概念概率描述的方法,实现了场景概念概率描述的提取速度和识别准确率的明显提升。本方法还分别在不同尺度下提取场景概念概率描述,并基于多CNN与多尺度空间上下文关系进一步建模,从特征优化的角度实现了局部到全局的融合,进一步提升了高度抽象场景图像的识别准确率。 (4)提出了局部到全局的卷积神经网络模型训练技术。为解决传统方法过于依赖大规模数据训练CNN的问题,面向数据量有限的RGB-D室内场景识别任务,提出了一种局部到全局的二步式CNN模型训练技术。首先基于Depth图像块,应用弱监督预训练CNN模型,然后以预训练模型为初始化值,基于全局图像进一步实现局部到全局的微调训练。相比于传统的方法,本方法不需要依赖大规模数据的预训练,且在Depth数据上的识别正确率反而优于传统的基于大规模RGB图像预训练然后实现迁移学习的方法。而面向RGB-D数据识别任务,提出了一种多源多模态模型,实现了RGB和Depth模态的有效融合。