论文部分内容阅读
随着科学技术的进步,3D显示设备无论是质量还是显示效果有了很大的进步。然而目前用于3D拍摄的专业技术设备仍然十分昂贵,制作工艺复杂,不利于大规模的推广和应用,导致3D的视频资源极为贫乏。应用深度估计算法不仅可以大幅减少3D视频制作的成本,而且能够循环使用现有的数量巨大的2D影视资源,将其转化为3D视频,对3D资源进行补充,从而有效地解决3D资源短缺的问题。基于机器学习的深度估计算法,由于适用性较高,对目标场景没有固定的限制,生成的深度图较符合目标图像的深度变化,成为目前深度估计的重点研究领域。本文主要研究了基于机器学习的深度估计算法,主要工作如下:1、提出了一种基于卷积神经网络的深度估计算法。首先,本文设计了用于深度估计的卷积神经网络DepthNet的框架。然后通过将训练数据输入DepthNet中更新网络模型参数,建立了原始2D图像与深度图之间的映射关系。接着利用卷积神经网络DepthNet对目标图像进行深度估计,生成目标图像的深度图,并采用交叉双边滤波器改进深度图的效果。实验结果显示,基于卷积神经网络的深度估计算法能有效提高生成深度图的质量。2、提出了一种用于深度估计的视觉词典训练方法。首先在深度图像库中进行训练,得到初始视觉单词。然后采用难例挖掘的方法找到初始视觉单词的难例负样本,用难例负样本来训练视觉单词的分类器,同时更新视觉单词和深度信息,建立深度视觉词典。实验结果显示,该训练方法可以从深度图像库中挖掘出在空间结构上具有明显的一致性的视觉单词,组成可用于深度估计的深度视觉词典。3、提出了基于深度视觉词典的深度估计算法。该算法通过构造深度视觉词典对目标图像进行多尺度的视觉单词检测,匹配对应的深度信息,最终完成深度估计。实验结果表明,本文算法能获得场景结构明显、物体边界显著、物体位置更为准确且深度变化较为连续的深度图。