论文部分内容阅读
三维建模技术在诸多领域都有着越来越广泛的应用。而目前常用的三维建模软件需要用户付出很高的学习成本,对于普通大众而言很难使用。基于图像的三维模型生成系统则有着简单易用的特点,因此如何从图像中生成三维模型受到了学术界和工业界的关注。为了给用户在模型生成过程带来极大程度的便利,本文致力于解决基于单幅图像的三维模型生成问题。然而单幅图像的模型生成任务是一个病态问题,需要很强的三维模型先验进行辅助。近年来大量文献致力于利用神经网络进行基于图像的三维模型生成工作,这是由于神经网络相比于基于视觉线索的方法而言具有更强的先验学习能力,能够打破对应用场景的诸多限制。因此本文为解决该问题,设计并实现了一种基于神经网络的多阶段三维模型生成方法。具体而言,本文工作包括以下三方面内容:(1)设计了一种基于单幅图像的三维模型生成方案。在该方案中,本文首先用多视角2.5维视图估计器从单幅RGB图像中预测多个特定视角下的法向量图和深度图(本文称特定视角下的法向量图和深度图为2.5维视图)。随后,本文使用点云生成器根据预测的法向量图和深度图推理出完整的三维模型。通过该方案,可使得最终生成的三维模型具有更细致的形状,且对自遮挡具有更强鲁棒性。(2)设计并实现了一种多视角2.5维视图估计网络。该网络用于从单幅RGB图像中估计多个特定视角下的法向量图和深度图。本文通过基于可见率(图像中对象的可见部分面积与总表面积之比)分析的最佳视角选取过程选定若干预测视角,并采用由卷积神经网络构成的编解码器架构实现对被选定视角下的法向量图与深度图的预测。(3)设计并实现了一种三维点云生成网络用于三维模型的生成。本文使用了循环神经网络融合多个视角下的2.5维视图,并且为避免深度卷积网络训练时可能出现的梯度弥散现象,本文使用深度残差网络作为编码器。在解码器设计中,本文使用了双分支解码结构分别关注于被生成对象的主体部分和细节部分。