论文部分内容阅读
RGB-D媒体获取设备的发展、普及使得RGB-D数据持续增长,极大地推动了多媒体研究领域中RGB-D媒体数据相关处理技术的研究。其中,RGB-D图像内容分析是针对RGB-D图像进行一系列特征分析、语义理解以及智能认知的技术,会给人们的学习、工作和生活带来诸多便利,具有广阔的应用前景和潜在的经济价值与社会价值。当前的工作主要是以分析传统RGB图像的方式来分析深度图像,而较少关注RGB-D图像数据自身特性的挖掘和利用。本文从分析RGB-D图像的内在特性入手,围绕RGB-D图像的层次化语义内容分析技术展开研究,充分挖掘RGB和深度图像间的差异性和相关性,以优化RGB-D图像内容分析的效果,从而为分析、处理和应用RGB-D图像数据提供一系列关键支撑技术。在本文中,我们的主要工作和贡献包括以下几个方面:1.提出了一种颜色与深度信息自适应融合的似物性估计方法,充分发挥多模态数据的优势,有效提升现有方法的估计效果和处理的稳定性。RGB图像中的似物性估计易受高纹理区域的干扰,而深度图像提供了较为清晰的对象边缘,十分有利于似物性分析。但是,深度图像会随着深度增加,描述能力迅速衰减。通过考察RGB和深度图像各自的优势,本文提出了一种自适应融合RGB和深度信息的对象描述方法,充分利用颜色和深度线索来进行似物性分析。有效地区分了 RGB图像中的歧义区域,特别是高纹理区域,同时,强化对象边界轮廓区域,最终获得更鲁棒的特征描述来度量窗口的似物性。该方法不仅具有更高的召回率,也表现出了更好的稳定性。此外,本文还公布了一个基于双目立体图像的似物性估计数据集,以推动本领域的相关研究。2.提出了一种用于RGB-D图像对象检测的多模态深度特征学习方法,有效挖掘RGB-D对象的模态特有的和模态相关的特征表示,显著提升了对象检测精度。现有的用于RGB-D图像的对象检测方法,通常是将RGB图像中的对象检测方法直接作用于深度图像,未能有效地挖掘两种模态间的相关性特征。本文基于RGB和深度图像的语义应具有相关性的认知,提出了一种用于学习RGB-D图像模态相关特征的方法,同时融合模态特有特征构成更全面、更有效的多模态特征表示。在两个国际上公开的RGB-D图像基准数据集上的实验评测表明,本文的特征描述方法可以探索RGB-D对象的不同层面,有效挖掘了其互补多模态特征表示,而且能够更快速、精确地得到RGB-D图像的似物性估计和对象检测结果。3.提出了一种基于图像到图像翻译模型的RGB-D图像场景识别方法,自动挖掘RGB和深度图像间的联系,大幅提升场景识别精度。鉴于目前RGB-D图像数据集规模较小,现有的RGB-D图像场景识别方法通常需要利用在大规模标注的RGB图像集上预训练好的模型来对深度模态的识别网络进行精调,这将会导致学习到的深度模态特征存在一定的偏置,而且没有有效探究场景视觉外观和场景空间结构布局之间的关系。本文在不依赖任何额外标注数据的情况下,直接从基于图像到图像翻译模型的RGB-D图像生成模型出发,在学习生成高质量RGB-D图像的同时,自动地对两种模态图像间的关系进行建模,为后续的场景识别预学习到了含义更丰富的RGB-D图像表示。在两个国际上公开的RGB-D图像基准数据集上的实验评测表明,在不使用任何额外标注数据的情况下,本文方法获得了非常有竞争力的场景识别精度。此外,本文的场景识别方法还可以适用到跨模态的场景识别,能够显著提高单模态下的场景识别精度,有着更广阔的应用前景。4.提出了一种针对双目立体图像的对象检索的框架,充分发挥深度信息在显著对象提取中的作用,有效减少无关背景区域对于图像内容检索的影响。为了更方便地浏览、组织、管理与日俱增的双目立体图像媒体,本文在对象检索基础上,提出了一个完整的基于对象的双目立体图像检索框架。通过结合双目立体图像中恢复出的深度信息,提出一种可以自动检测出图像中关键(显著)对象的方法,从而构建对象级别的图像索引,弥补了现有基于对象的图像检索方法的不足。同时,本文还将传统的位置敏感哈希算法拓展成分布式索引方法,提高了检索效率。实验评测表明,本文方法可以有效地检测出图像中显著对象区域,而且检索过程更加高效,结果更加精确。在此基础上,本文公布了一个双目立体图像检索数据集,以推动相关领域的研究。