论文部分内容阅读
随着计算机技术的迅猛发展和不断更新,对图像数据的研究不仅仅只限于二维平面,而是渐渐涉足于三维空间。三维信息对物体的描述更具体、全面,有助于计算机去认识人类世界,完成图像分类、识别、场景理解等任务。因此,对图像三维重构技术的研究是视觉领域的基础性工作,具有重要的意义,近年来,成为图像领域的研究热点。本文以点云作为三维空间的表示形式,研究如何利用深度学习方法完成单张图像的三维重构。以神经网络3d-lmnet为出发点,分析3d-lmnet中存在的不足之处,并对其中的点云特征提取网络、图像特征提取网络提出改进方案。改进后的结果相比原始3d-lmnet在重构效果上更优,重构的模型更接近真实三维数据。本文的主要工作内容如下:本文针对3d-lmnet中用于点云特征提取的自编码器提出改进方案,优化自编码器中的两个组成部分Encoder与Decoder。Encoder部分采用两条并行线路进行点云数据的特征提取,获得潜在空间向量;Decoder部分加入上采样层支路,与全连接层支路共同完成空间点坐标的预测。改进后的点云自编码器,相比原始结构,不仅在点云数据特征表示上提高了4.27%,而且网络具有快速收敛的优势。再根据数据样本的特点,选用Leaky-Relu作为激活函数,最终使得图像三维重构的精度提高8.96%。以改进后的3d-lmnet网络为基准,研究图像特征提取网络在网络结构、输入图像通道上对重构的影响。在结构上,加入残差单元后,网络训练更平稳,网络训练时间更少;在输入图像通道数上,增加图像数据的alpha通道后,网络描述点云边界部分的能力增强,重构精度提高8.40%。探究两者的综合性能,不仅在训练时间上有所减少,而且在重构效果上也有所提升。最后,利用改进后的3d-lmnet对数据集中的每一类数据进行评估,以Chamfer、EMD为评估指标,得到的结果优于3d-lmnet。