基于多模态特征表达与融合的RGB-D物体识别

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhangsao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
物体识别是计算机视觉领域最基本也是最核心的任务之一,包括图片级的物体识别和更加精细的像素级物体识别(即场景语义分割)。近年来,随着深度传感技术的发展,如微软的Kinect,我们能够同步地获取到高分辨率的RGB图像和高质量的depth图像(即RGB-D数据)来描述同一个物体的多模态信息。如何利用RGB图像提供的丰富的颜色、纹理信息,以及depth图像提供的纯粹的形状、几何信息,来进一步提升物体识别的准确率,并解决传统的基于RGB单模态的物体识别算法对视角、尺度、姿态以及光线变化的不鲁棒性,成为学术界和工业界共同的研究热点问题。本论文从RGB-D物体识别的四个关键环节出发,包括特征表达、度量学习、分类器学习以及RGB-D多模态融合,并充分考虑物体识别中大规模人工标记训练样本标签的成本代价,进行了如下研究:  (1)研究了大规模无标注样本条件下RGB-D物体的无监督特征表达学习。考虑到手工设计RGB及depth特征往往复杂度高、表征能力有限,而现在的深度学习特征依赖于大规模的人工标记样本来进行监督训练,需要大量的人力、物力及时间成本,本文探索如何有效地从大规模的廉价的无标记RGB-D样本中自动挖掘物体判别性的表观和形状特征。论文中我们将卷积和Fisher核编码相结合(CFK特征),以及将卷积、空间金字塔匹配和递归神经网络相结合(CNN-SPM-RNN特征),构造了两种无监督的层级特征表达学习器来有效地表征RGB-D物体各个模态的特性。  (2)研究了少量标注样本结合大规模无标注样本条件下RGB-D物体的特征及分类器联合协同学习。尽管无监督特征学习算法不依赖于样本的标签,但是在涉及到具体的物体识别任务时,依然需要人工标记大规模样本的类别标签来训练分类模型,如SVM分类器。为了进一步降低RGB-D物体识别整个任务对大规模人工标记样本的依赖性,我们探索如何利用少量的标注样本和大规模的无标注样本来获得高精度的RGB-D物体识别性能。受益于RGB和depth模态的互补性,我们提出了一种基于协同学习的半监督特征及分类器联合学习框架,只利用5%的标记样本便获得了和当时最好的全监督算法相比拟的物体识别性能。  (3)研究了大规模标注样本条件下RGB-D物体尺度及视角不变性的多模态融合学习。有效地融合RGB和depth模态的互补性能进一步提升RGB-D物体识别的准确度和鲁棒性。现在的融合策略一般采用简单的特征拼接或者分类器分数加和,这种融合策略很容易受到物体尺度、视角变化的干扰,而且无法适应RGB和depth信息在识别不同物体时贡献的差异性。为了解决这些问题,我们首先提出了一种密集匹配策略将物体映射到同一个尺度及视角空间,并在该空间定义了一种多模态融合学习策略来动态的权衡RGB-D物体中各个模态的重要性,实验表明相比当时主流的方法,我们的方法在RGB-D物体识别标准库上获得了更好的分类精度。  (4)研究了大规模标注样本条件下RGB-D场景语义分割。相比上述图片级的RGB-D物体识别任务,像素级的RGB-D物体识别任务,即场景语义分割难度更大,它需要识别图像中每个像素点的类别标签,包括分类和定位两个任务。基于现在的全卷积神经网络模型,我们提出了一种局部位置敏感的反卷积神经网络用于提升物体的边沿分割效果,并提出了一种开关融合策略来学习RGB和depth两种模态在描述不同场景下各种物体时权重的可变性,用于进一步提升分类的精度。实验表明相比当时主流的方法,我们的方法在RGB-D场景语义分割标准库上获得了更好的分割结果。
其他文献
非线性和不确定性在实际系统中普遍存在,使实际系统难以建立精确的数学模型,从而对控制系统的性能产生不利影响。不确定非线性系统的控制问题已经成为控制理论研究的热点问题。
图像跟踪与识别是无人飞行器光电探测与制导的关键核心技术,动态几何形变是图像跟踪与识别技术面临的突出难题之一。基于欧氏空间的图像跟踪与识别理论,采用线性或线性逼近的
随着计算机技术的迅速发展,由于直观、形象、易懂和信息量大等特点,使得数字图像作为现代信息传递中的一个重要媒介,得到了极为广泛的应用。但实际图像获取系统的不完善所引
随着社会的进步和信息化技术的提高,卫星通信事业得到了快速的发展,车载卫星通信由于其机动、灵活的特点,已经在许多领域得到广泛的应用。   通常使用卫星天线接收卫星信号,必
恶性肿瘤的早期诊断及其治疗效果评估,对于辅助医生制定有效治疗方案,提高患者生存时间以及生存质量具有重要的临床意义。然而恶性肿瘤往往具有空间异质性,这种异质性特点导致其
本文作者的研究课题是基于国家重点基础研究发展计划(973计划)资助项目“证侯规范及其与疾病、方剂相关的基础研究”,课题研究的主要任务包括两部分内容:一部分是利用复杂系统
脉冲耦合神经网络(Pulse Coupled Neural Network, PCNN)是一种有着生物学背景的新一代人工神经网络,与传统人工神经网络(Artificial Neural Network, ANN)有着很大的区别。P
人体行为识别(HAR)是计算机视觉领域中备受关注的前沿方向和最为活跃的研究主题之一,它是指利用计算机视觉技术从图像或视频序列中识别和理解人的个体行为、人与人之间以及人
当今世界的能源结构,仍是以化石能源为主。随着科学技术的不断进步,核能等新兴能源也不断进入了人类生活的各个领域,但从整体来看,石油等依然是人类主要的能源来源。风能具有清洁、可重复利用、无污染的特点,在当前提倡可持续发展的情况下,大力发展风能具有极大的经济和社会效益。目前,世界各国都在大力开展对风力发电技术的研究。本文从建模和变桨距控制技术两个角度对风力发电机组进行了研究,以提高风力发电机组的发电效率
随着计算机技术、多媒体技术和互联网技术的快速发展,人们可以更加便捷地制作和传播图像等多媒体数据,网络上的图像数据也因此呈现出爆炸式的增长。为了便于人们从海量的图像资