论文部分内容阅读
多模态图像是指利用不同技术手段采集得到的描述同一对象不同属性特征的图像。例如:对于某一对象来说,使用相机拍摄得到的彩色图像和使用激光雷达扫描得到的深度图像称为该对象的两种模态图像。在基于深度学习的图像处理中,使用多模态图像有助于提高对象属性的表达能力,有助于获取研究对象更全面、更精确的信息,从而扩展和提升相关应用的处理能力。然而,受限制于设备、成本等原因,直接获取物体的多模态图像往往是非常困难的。为了解决物体某一模态图像获取困难的问题,本文受启发于图像到图像转换的思想,提出了跨模态图像生成方法:利用物体对象某一容易获取的模态图像生成所需的目标模态图像。针对现有图像到图像转换算法在处理跨模态图像生成时的不足,本文提出加入少量真实目标观测来生成符合现实要求的目标模态图像,而且,根据对目标观测的两种不同处理方式提出了两种不同的跨模态图像生成模型。实验表明,本文方法能够在实际应用中有效提高应用系统的准确性和稳定性,且具有较强的迁移学习能力和泛化能力。本文的主要工作包括以下3个方面:(1)提出了稀疏目标观测辅助的跨模态图像生成方法,并基于生成对抗网络构建了跨模态图像生成模型--GAN2C。该模型通过利用GAN的对抗学习以及稀疏目标观测的监督学习,提高了跨模态图像生成的效果。图像颜色恢复实验的结果表明,与经典的图像到图像转换算法相比,本文方法能够生成逼近于真实的彩色图像。(2)针对稀疏图像中有效观测的稀疏性以及卷积神经网络在处理稀疏图像时的局限性,提出了一种稀疏卷积融合操作,并结合跨模态图像生成,构建了一种稀疏卷积融合网络(SCFN)。稀疏卷积融合网络能够从稀疏的目标观测图像中提取有效的模态信息并将其与源模态图像进行融合学习。(3)将提出的跨模态图像生成架构应用到图像深度估计任务中,包括室内场景图像和室外交通场景图像。实验结果表明,本文提出的方法能够得到与最先进的图像深度估计方法相比拟的深度估计精度。本文方法在NYU-Depth-v2数据上的RMSE达到了0.261 m;在KITTI数据集上的RMSE达到了962.30 mm。