基于深度学习的单目场景深度预测

来源 :东南大学 | 被引量 : 0次 | 上传用户:freegfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单目深度预测是计算机视觉中备受关注的研究课题,在自动驾驶、VR游戏制作、影视制作等领域具有广泛的应用价值。然而,目前该领域仍然存在较多为解决的问题,例如使用雷达激光采集深度数据的过程耗费巨大且受天气、光照等客观因素影响大;基于稀疏深度图恢复的深度信息的方法存在边缘深度不连续的问题。本文利用立体图像对进行训练,旨在提高场景深度预测网络的预测能力,对深度网络结构、双目立体匹配、视差图优化等方法进行了研究。具体工作如下:1、在单目场景深度预测框架中,使用DenseNet卷积模块改进了原先的网络模块,加深了网络层数的同时改善了信息传递。实验证明,基于DenseNet框架的深度预测方法具有更少的局部误差和更高的准确率。2、在损失函数中提出基于重建的代价聚合加强双目匹配约束,同时对模型输出的视差图进行后处理优化。本文在RGB和视差两个层面使用图像重建技术,比较重建图像与被采样图像的相对的视图的相似度,聚合计算代价,加强了双目训练的匹配约束。同时利用平滑方法和后处理优化生成的视差图,使得到的密集视差图平滑的同时不损失物体边缘。3、本文还将基于KITTI数据集训练的深度预测模型集成到单目视频2D转3D系统中。将单目视频分解为图像序列,利用DIBR合成虚拟视点图像,与原图结合生成红蓝3D图像,增加了该方法的实用意义。对比实验表明,本文改进的基于DenseNet的单目场景深度预测框架和基于重建的代价聚合能够有效地提高单目深度预测精度。和其他深度预测方法相比,本文提出的方法具有较小地平均误差率,得到的深度图更平滑。
其他文献
图像内容理解是计算机视觉领域重要的研究目标。分割,尤以细粒度图像分割,是实现图像内容理解的一个重要途径。全景分割,作为细粒度图像分割任务中的一种,可以帮助计算机更全面的理解图像中每一类物体的位置、形状等信息,它的有效解决,将有助于自动驾驶、行为识别等多个问题的发展。本文主要着眼于神经网络建模、针对全景分割问题的计算机视觉方法研究。更具体来说,是通过对数字图像进行像素点级别的分类实现对图像中物体的识
随着社会与现代科技的发展,人们将面临着越来越多的数据,传统的机器学习方法计算开销大,通常难以应用到大规模数据的学习问题上。而当面对大规模学习问题时,在线学习往往是一种易于应用且高效的方法。现有的在线学习方法大致可分为线性模型和核化模型两类。其中,线性模型的计算开销小,所以计算速度快。但当面临复杂数据时,这类模型在精度上很可能表现不佳。后来有研究者引入核技巧(kernel trick),提出了核化模
多标记分类研究中,一个示例(由属性/特征向量表示)会关联多个类别标记,利用多标记数据可以构造一个从示例映射到类别标记集合的分类模型,这样的学习框架适用于多义性对象建模。传统的多标记分类任务中,通常假设实例对应的标记集合是完全准确的。然而,在某些复杂场景下(如网络图片标注),与示例关联的候选标记集合往往含有噪声,需要对含噪多标记分类问题进行研究。本文针对多标记分类中噪声标记问题与多标记分类中特征构造
两阶段学习算法是将一些传统机器学习算法由原始的一步解决问题的过程拆分为两个不同的学习阶段,而问题求解的本质保持不变的学习框架。最初,两阶段学习算法的引入是用来解决核Fisher判别分析(Kernel Fisher Discriminant Analysis,KFDA)在处理高维小样本数据时所面临的病态问题。具体地,两阶段核Fisher判别分析(Two-phase Kernel Fisher Dis
在标准偏标记学习框架下,每个对象由单个特征向量进行刻画,同时与多个候选标记相关联,其中仅有一个未知的真实标记。另一方面,在真实世界问题中对象的性质往往更为复杂,每个对象拥有多源的特征表示并且未知的真实标记也并非唯一。一般而言,有效的特征表示能显著提升学习系统的泛化能力,而偏标记特征表示任务由于标记的真实信息未知而具有较高挑战性。本文针对偏标记场景下的特征表示及融合展开研究,主要包括以下两方面工作:
医学图像配准是医学图像处理研究领域的一个重要任务和技术难点,对于图像融合、检测肿瘤生长等临床工作有重要意义。图像配准旨在寻找将一幅图像映射到另一幅图像的空间变换。传统的配准方法迭代优化每一对图像的目标函数求解空间变换,存在配准时间长、计算量大的问题。近年来,随着深度学习在医学图像研究领域的广泛应用,基于深度学习的图像配准成为极具前景的研究方向。基于深度学习的有监督配准方法虽然在配准速度与精度方面都
随着网络中数据信息的快速增长,知识库的规模也与日俱增。由于知识库中数据量的庞大规模以及复杂结构的限制,普通用户很难快速有效地获取需要的信息。因此,基于知识库的问答,运用自然语言处理技术,对于用户提出的自然语言问题,自动利用知识库存储的三元组信息(即知识)进行解答,显得尤为迫切和重要。目前,基于知识库的问答研究引起了国内外学者的广泛关注。根据回答问题所需要的三元组的数量可以将知识库问答分为两类:单关
多模态知识表示学习旨在从多模态数据中学习到关于其中数据、信息或知识的低维稠密向量形式的特征表示,作为近年来人工智能研究的热点问题之一,在多模态语义检索、视觉问答(VQA)、多模态情感分析等智能场景中具有重要应用价值。虽然多模态数据能为许多任务提供比单模态数据更多和更有用的特征信息,但如何从多模态数据获得有效的表示学习结果一直是多模态知识表示学习研究的核心问题。本文首先提出了一种基于门控层级融合的多
知识图谱是人类知识的一种显式表示方式,作为近年来人工智能研究的热点领域之一,已被广泛应用于语义搜索、人机互动、辅助决策等智能应用场景。然而,在各种知识图谱驱动的应用中,往往需要借助知识图谱嵌入技术将知识图谱中的元素表示为低维稠密的向量形式,弥补显示知识表示的不足,以满足大量推理、分析和预测的需要。虽然知识图谱嵌入已有很多研究工作,但仍存在知识表示不准确和语义不够丰富的明显不足:(1)基于翻译思想或
图像描述顾名思义,即给定一张图片,算法自动生成一段描述图像内容的文本。该任务对人来说很容易,但对于机器却非常有挑战性。这需要同时用到计算机视觉技术和自然语言处理技术,来实现从图像内容理解到文本生成的转化过程。图像描述应用潜力巨大、在很多方面都很有应用价值,适用于人机交互、图片索引、智能监控、视频标注、视觉辅助等领域。近年来,Encoder-Decoder框架在基于神经网络的图像描述任务中吸引了越来