论文部分内容阅读
随着数字图像技术和人工智能技术的高速发展,将具有高维抽象特征的数字图像和人工智能算法结合已成为计算机图像技术的发展趋势。在传统图像处理技术中,可以通过标准化的计算方法实现图像处理、合成的特定化操作。针对图像中物体的空间信息提取,传统图像算法也需要配合3D模型才能通过繁琐的人工操作来实现。相对于传统数字图像处理技术,采用卷积神经网络算法将会从数字图像中提取更多的抽象特征。结合图像中物体空间结构特征和环境特征,可以高效、智能化地实现图像中3D物体的空间变换。因此,开展基于深度学习的语义控制图像合成技术研究有着重要的理论意义和实用价值。本论文的研究内容来源于“面向科学实验的遥操作软件”项目,以机器视觉中的物体为研究对象,针对图像重构和视角重建、前景分割和背景重构以及语义控制图像合成等关键技术开展研究。主要研究工作如下:首先,结合体素模型数据集开展常用3D生成网络模型的研究。针对图像空间特征提取问题,设计3D-CNN、3D-GAN以及VAE模型的网络结构,并基于网络模型的输入形式实现模型对应训练、测试数据集的建立。针对分类识别、物体重构问题,设计体素网格模型对数据集进行预处理,并基于三种常用3D生成网络模型的训练、测试结果,实现各类网络模型的结构性能评估,为后续建立图像重构和视角重建网络模型、前景分割和背景重构网络模型做铺垫。其次,结合3D生成网络模型的结构特性、图像重构和视角重建算法的研究,开展多并行多级联的编码-解码网络模型的研究。基于建立的图像重构和视角重建网络模型,采用Blender渲染合成多类3D椅子的训练、测试图像数据集。针对语义控制的图像前景物体空间变换问题,调整网络参数、训练参数优化网络模型,并与常用的编码-解码网络、胶囊网络以及传统算法进行测试对比,从图像合成效果和分块匹配直方图算法角度实现网络模型的定性、定量评估。然后,基于建立的图像重构和视角重建网络模型,开展前景分割和背景重构算法的研究。结合3D生成网络模型的结构特性,提出二级联编码-解码网络模型。针对多任务网络模型的训练问题,通过在渲染图像中加入背景信息,对图像数据集进行增强。设计多任务组合损失函数,实现网络模型的多任务联合训练。针对语义控制的图像合成问题,从分割任务角度采用F-measure算法对网络模型与传统算法进行定性、定量评估,并将图像重构和视角重建网络模型与前景分割和背景重构网络模型结合,实现语义控制图像合成网络模型的构建。最后,针对结合旋转语义信息的图像物体空间变换开始实验研究。制定真实椅子图像数据采集标准,并搭建语义控制图像合成实验验证软件平台。设计实验方案,并结合软件平台和采集数据进行实验。对比分析实验结果,验证在真实环境下语义控制图像合成网络模型的有效性和实用性。