论文部分内容阅读
基于视觉影像的语义理解是视觉影像处理和分析领域的重要研究课题。如何从大量的图像、视频数据中挖掘有用、有效信息,更好地为军事侦察、公共安全、现代医疗和智慧城市等国家重大需求提供服务,已成为视觉影像语义理解领域亟待解决的问题,而图像质量改善、场景识别、显著性目标检测和语义分割又是视觉影像语义理解领域不可或缺的重要组成部分。因其巨大的理论研究意义和广泛的实际应用价值,基于视觉影像的语义理解受到广泛关注并取得长足发展,但仍存在如下问题:1)对图像降质因素挖掘不到位;2)对图像判别信息表达不完整;3)对图像数据分布利用不充分;4)对图像结构信息刻画不细致。针对以上4个问题,本文主要研究内容归纳如下:(1)提出基于多任务学习机制的图像去模糊算法。该算法将图像去运动模糊问题转化为一种图到图的映射问题,即从“模糊域”到“清晰域”的映射。其利用数据驱动的方式学习不同域之间的转换关系,从而避免了传统基于核估计的方法中对先验知识的过度依赖。此外,该算法还发现当相同的模糊因素作用于纹理复杂度不同的图像时,其对图像带来的降质情况不同的。具体地,纹理越复杂的图像受到的影响越严重。基于此,该方法创造性地将图像的纹理复杂度信息纳入到图像去运动模糊框架中以指导其参数优化,并通过加权注意力掩膜策略增强了网络对图像中复杂区域的重构能力。(2)提出基于鲁棒空频联合表达机制的图像场景识别算法。该算法创造性地将图像的频域信息和空域信息统一到识别框架,其充分挖掘了不同域信息的优势。具体来讲,该方法分别用卷积神经网络和多尺度带通滤波网络提取图像的空域判别信息和频域统计信息,并利用一维循环卷积策略对两种信息进行了有效融合。由于频域统计信息的引入,该方法在一定程度上解决了高分辨率遥感影像由于其拍摄角度多变而引起的误识问题。另外,该方法通过对空域图像中不同区域之交互关系的编码,加强了空域特征描述算子的语义判别能力,从而提高了算法对复杂场景的识别性能。(3)提出基于显隐性困难样本学习机制的显著性目标检测算法。该算法将困难样本划分为显性困难样本和隐性困难样本,并根据其各自特点设计针对性网络结构和优化策略,用以来提高模型性能。具体地,显性困难样本是指目标边缘区域和近边缘区域的像素,这些样本由于其和周围像素表观特征的相似性和语义标签的异质性,其检测难度相应较大。隐性困难样本是指在上一轮迭代中预测结果和真值差异较大的像素。该方法通过加大对上述困难样本的惩罚来加强模型对其敏感性。另外,该方法根据目标尺寸和形状结构信息采用多尺度软注意力融合策略提升其检测精度。(4)提出基于空间结构保持特征金字塔网络的语义分割算法。该算法采用特征金字塔模型有效融合了深度卷积网络中不同层级的特征,包括浅层纹理结构特征和深层语义判别特征,保证了分割结果和准确性。为了避免训练样本不足带来的过拟合问题,该算法采用迁移学习策略用在大规模图像识别数据库上训练的神经网络提取不同层级的图像特征。另外,该算法根据输入图像不同区域块之间的相似性和上一轮迭代预测掩膜中相应区块间的关联性设计了空间结构保持损失项,其可以将输入图像中不同像素之间的交互传递到预测结果图中,从而在一定程度上避免了空域弥散问题。