论文部分内容阅读
图像的语义分割一直是计算机视觉领域的研究重点,而深度学习是近阶段人工智能方向飞速发展的热点,因此基于深度学习的机器视觉方面的应用随之成为全世界研究人员的热点关注问题。深度学习的发展近十年来在人工智能领域取得了非常具有建设性的突破,也是现阶段互联网大数据环境下最流行的智能应用方式之一。深度学习在图像检索、图像内容分析、自然语言处理、视频行为分析、多媒体解析等诸多宽广的领域上取得了引人瞩目的成功应用。接踵而至,各种各样的计算机视觉问题都在尝试使用深度学习的方法来进行更为突破性的研究。本文重点研究基于深度学习的卷积神经网络的图像语义分割。研究一是针对室内场景的图像通过原始图片的上下文信息约束来提高整体的像素级别的分割精度。研究二是将语义分割作为导向使用条件对抗网络得到像素级别上更精准、像素间更具相关性的分割结果,也是利用条件对抗网络来处理图像分割问题的研究尝试。首先介绍了传统方法与深度学习方法在图像语义分割任务上的差异,以及当下最热门的对抗学习方式和其中主要的生成对抗网络的介绍。主要分析了深度学习中卷积神经网络在图像语义分割任务上的优势,以及生成对抗网络在图像语义分割任务上的可行性与优点。室内场景的语义分割有很大的应用范围,例如智能机器人、室内监控等,但由于室内场景中的物体类别繁多且分布不均匀,当分割较小的物体或物体边缘时很容易丢失标签。图片的上下文信息表达的是像素点之间的关联内容,这些内容之间的约束能对语义分割结果产生有效地帮助,但目前的研究还有很多尚未充分利用的地方。本文对此提出了一个可学习的上下文正则化深度卷积神经网络模型,该模型利用卷积神经网络的特征提取能力得到原始图片中丰富的上下文约束信息,用以加强语义分割结果。该正则化模型使用深度卷积分割网络,但不引起明显的额外参数增加网络训练负担。提出的模型利用室内场景物体固有的上下文正则约束提高分割结果,可学习的约束是在网络低层和网络高层之间架起一个连接桥,在相邻的RGB像素点使用L1约束学习上下文约束信息来辅助高层的像素点分类以提高分割精度。基于深度卷积神经网络语义分割的研究也越来越深入且取得了显著的效果。生成式对抗网络(GANs)是深度学习领域最新提出的比较重要的一个模型,但现有的主要研究大多是针对图像生成、风格转移等任务,在图像分割上的研究还不够深入。因此本文使用生成对抗模型来研究和解决图像语义分割任务,提出分割-对抗模型(Conditional Segmentation Generative Adversarial Networks,CSGAN)。CSGAN使用深度卷积语义分割模型作为生成模型,基于输入的RGB图像产生对标签类预测的概率图,逐像素计算回归损失。CSGAN模型中的判别网络对预测图与标签图的差异进行高阶规律统计,为生成模型提供了一个自学习的全局损失统计方式,不依赖人工设计的损失项.。我们的模型保持了传统语义分割模型端到端的训练,实验结果有效地表明我们的模型不但能提高分割结果中单个物体的完整性,还能保持物体间的相互独立性。本文中针对室内场景的可学习的上下文正则化深度卷积神经网络模型在室内场景的数据库NYUDv2上对RGB图跟深度编码图HHA进行实验取得了精度上和分割边缘的有效提升。基于分割导向的条件对抗网络有效的认证了分割网络在对抗学习上的有效性,在数据库Cam Vid上进行了二类、十二类分割任务的实验,对抗学习的方式保持了深度学习分割网络的端到端的便捷属性,同时联合训练提高了分割的像素点间的相关性。