论文部分内容阅读
近年来,随着深度学习理论的不断创新和发展,基于深度学习的图像识别、图像检测和图像语义分割技术正在逐渐取代传统基于人工设计的方案。图像语义分割是计算机视觉中的一个重要研究方向,也是关于图像理解的重要一环,不仅在工业界的需求日益明显,同时图像语义分割的研究也是当下学术界的研究热点之一。在人类文明不断进步的今天,智能驾驶、室内导航、人机交互等领域均需要精确、高效的图像语义分割机制,所以对图像语义分割技术的研究具有重要的现实意义。卷积神经网络作为深度学习的方法之一,具有强大的特征提取能力,在计算机视觉领域取得了前所未有的成功。本文在对全卷积神经网络FCN(Fully Convolutional Networks)进行研究并总结其不足后,重新设计并实现了一个端到端的图像语义分割网络模型,具体工作如下:首先,新网络模型添加了全局均值池化层,融合了图像的上下文信息,提升了网络模型对图像细节的处理能力;添加了带可训练参数的L2归一化层,降低了网络训练的难度,提升了网络收敛速度;使用带可训练参数的PReLU激活函数,提升了网络的非线性建模能力,使随机梯度下降更接近自然梯度,网络模型收敛速度更快。其次,设计了新网络模型的训练和测试方法,然后在PASCAL VOC 2012数据集上对新网络模型进行了训练和测试,并对网络参数进行了优化,通过与其他语义分割模型的对比以及对网络模型信息可视化对实验数据进行了分析和总结。实验结果表明,虽然新网络模型相对于FCN添加了多个网络层和额外的训练参数,但是在整体的训练时间上不到FCN-8s的一半,而且分割效果更好,MIo U提升了4.6个百分点。最后,在新网络模型的基础上,从实际应用的角度设计并实现了一个图像语义分割系统,降低了用户训练并使用图像语义分割模型的难度。