论文部分内容阅读
随着计算机硬件设备的发展和人工智能的快速兴起,神经网络已经成为各种智能相关产业解决方案中的关键性技术之一。在近几年的计算机学科研究中,神经网络已经在图像处理,语音识别,自然语言处理等多方面都获得了一系列显著的成果。它通过对动物的脑神经结构的模拟,从低级的原始数据特征中提取抽象的高级特征。这些高级特征包括了对数据本质信息的刻画,通过对这些高级特征的加工处理,可以使得计算机承担起人脑所能完成的一些任务。对脑神经的模拟,使得计算机在人脸识别、智能驾驶、语音翻译等许多现实领域取得巨大的成就。人工智能的实现已然成为21世纪不可阻挡的研究热潮。近年来,传统的汽车行业也开始迈入自动驾驶技术的领域,寻求新的突破。从简单的行人和车辆检测,到交通场景的语义分割,再到理想的全智能驾驶,都已经开始被深度学习所占领。研究学者们试图完全用计算机来构建车辆的控制策略系统。2014年,加州大学伯克利分校的Long等人提出全卷积神经网络,用卷积的思想来代替全连接结构,实现了从图像分类到密集像素预测的转变。这是神经网络用于场景语义分割的第一步,也是智能驾驶能否实现的关键一步。然而全卷积神经网络的效果并不是非常理想,一个重要的问题就是池化层在聚合背景的同时会丢掉部分的位置信息。对于图像语义分割这种密集预测,每个像素点的上下文信息(位置信息)是不可或缺的,它对像素点的最终分类非常重要。由此,后来的研究者提出了三种不同的结构来解决这个问题:空洞卷积结构,编码解码结构,空间金字塔结构。本文分析几种不同的结构的工作原理及特点,比较了各种网络之间的区别。本文结合最新的对抗网络结构,构造了新的网络结构用于图像语义分割。本文的创新点主要有以下几点:1.将生成对抗网络引入图像分割领域。结合条件生成对抗网络的思想,用原始图片作为生成器的输入,由生成器生成所需的语义分割结果。将原始图片和生成器生成的语义分割结果组合,或者将原始图片和人工标注的分割结果组合,作为判别器的输入。训练网络,使得判别器无法区分生成器生成的图片和人工标注的结果,则生成器能生成满意的图像分割结果。2.引入图像的超像素信息。本文将超像素分割获得的边界信息作为分割条件输入到生成器网络中。对于原始的输入图片,本文先采用SLIC的超像素分割方法获取图像的细微轮廓,然后将超像素的分割结果和原始图片堆叠在一起作为生成网络的输入。3.重构了新的图像分割结构。在图片翻译模型中,往往在边界处的处理难以达到很好的效果,所以本文将生成器的输出层改为K(K表示分类数)个通道对结果进行输出。本文采用了Deconv Net中的Encoder-Decoder结构,去掉了全连接层减少模型参数,同时将池化索引的方式改成了直接堆叠的结构。