论文部分内容阅读
三维场景理解是计算机视觉与计算机图形学领域非常热门的研究方向,在增强现实、游戏制作等行业有着广泛的应用。场景的表面法向估计,对于三维场景解析、场景的2.5D布局描述及光照信息提取等具有重要作用。而现有场景表面法向估计方法通常无法获取到数据的整体分布,估计出的表面法向往往比较模糊,精度较低。本文针对这些问题,设计了一种基于生成对抗网络的法向估计模型,并在此基础上结合球面调和函数,完成了单幅RGB室内场景图像中光照信息直接提取和增强现实中虚实结合等工作。论文所做的主要工作如下:(1)设计了一种基于生成对抗网络的法向估计模型,以实现三维场景理解中表面法向的准确估计;在使用一个基准模型对法向估计任务进行探索后,针对出现的天花板难以辨别等场景布局特征提取困难问题,在基准模型基础上设计了全局特征网络,并加入自注意力机制进一步寻求特征的全局依赖,提取出了场景整体布局特征信息。在此过程中,为了解决竖直平面法向预测相反问题,设计了一个先验条件网络提供室内法向的布局标准,在解决问题的同时加速了网络的收敛;损失函数部分,在计算了传统生成对抗网络损失以及真实图像与生成图像之间曼哈顿距离的基础上,增加了像素层面的角度误差损失,进一步改善法向估计结果;并在标准数据集NYU Depth V2上对所设计的算法进行了评估,验证了算法设计的合理性与有效性。(2)针对传统光照提取方法中深度信息噪声较大等问题,本文在上述工作基础上,利用单幅RGB场景图像中所获取的精确表面法向信息,结合球面调和函数,可直接实现单幅RGB场景图像中光照信息的高效、准确提取。并利用所获取的光照信息绘制出虚拟物体,将之融入原始二维RGB图像中,完成满足光照一致性的虚实结合应用,进一步证明了本文所设计的算法在表面法向估计以及光照信息提取任务中的有效性。