Research on Real-Time Image Semantic Segmentation using Deep Learning

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zsjingling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义分割在图像的解释中起着重要的作用,对图像分析任务至关重要。语义分割是一样集分类、识别和定位于一体的任务。分类是指为每幅图像指定一个类别;检测是指对目标的定位和识别;而图像分割可以被视为像素级预测,因为它要将每个像素分类到其所属类别中。语义分割曾经也有很多基于图像处理和机器学习的方法,大部分都着眼于手工设计的技术来独立地识别每个像素点。在传统的方法中,随机森林和Boosting是最有效的策略。这些方法基于中心像素的类别概率进行预测。自深度神经网络重新出现以来,分割性能得到了显著的提高。尽管深度神经网络在语义分割任务中取得了巨大的成功,但是它的实时应用依然充满挑战。大量的特征通道、参数和浮点运算使得网络缓慢且计算量大,这对于机器人和自动驾驶等实时任务来说是不可取的。设计一个轻量级语义分割网络通常需要研究人员在性能和速度之间找到一个折衷点,由于神经网络的可解释性有限,这种折衷点通常是根据经验设定的。本文被研究并提出了一种使用深度神经网络的轻量级快速分割网络,称为阶段池化语义分割网络(Stage Pooling Semantic Segmentation Network,简称SPSSN),该网络可以有效地重用低层或中间层多个阶段、不同空间分辨率的重要特征。本文网络主要包括三个部分:一个深层分支、一个浅层分支以及一个四阶段池化模块。深层分支提取特征并将分辨率下采样至原来的1/32。浅层分支在高分辨率上精化空间细节。阶段池化模块接收深层分支的输出,提取不同分辨率的特征,每个模块的输出都送入浅层分支。为了保证网络轻量,我们只简单地使用元素相加来融合各模块的特征。为了捕获图像中更多的上下文信息,深度分支后面接了空间金字塔池化。分割任务的图像分辨率至关重要,因此,SPSSN网络以全分辨率2048×1024的图像作为输入,仅使用1.42M参数,而无需预先训练即获得69.4%的m Io U,并且在Cityscapes数据集上的运行速度为每秒59帧。此外,SPSSN的分类准确率达到86.4%。由于它的轻量级架构,SPSSN能够直接在移动设备上实时运行。在Cam Vid上获得了64.3%的高结果,推理速度为105FPS。最后,为了证明所提出的网络的有效性,本文将其与最新的网络进行了比较。此外,我们还设计了流池化模块,该模块不仅接收深层分支的输出,还接收前面流池化模块的输出。与阶段池化模块不同的是,流池化中只有最后一个模块的输出被融入到浅层分支中。最后,为了展示提出网络的有效性,本文将与当前最新网络进行比较。
其他文献
在现代化战争中低成本精确制导炮弹备受各国青睐,而采用气动力修正的PGK(精确制导组件)因其良好的修正能力、低廉的价格在制导弹药中得到越来越广泛的应用,但因其良好的控制受限于弹体转速,当弹体转速不在PGK反旋舵机控制范围内时,就失去相应的制导能力。本论文旨在解决这一问题设计了一款新型的云台式PGK,增强了PGK对弹体转速的适应范围,且控制系统动、静态性能良好,提高了弹箭精准度,在低成本精确制导弹药领
工业生产中,对多自由度机械臂的应用日益增加,对机械臂如何运动以及如何控制等问题的研究不断深入且存在许多优化空间,对于此类问题的研究有着重大意义。本文以搭载在Stewart动平台上的LOBOT型机械臂为控制对象,研究了机械臂与动平台的运动学建模、机械臂的路径规划与轨迹规划问题、动平台机械臂的控制算法、控制器参数离线整定算法以及进行联合仿真实验。本论文所做工作及成果如下:本文以LOBOT型机械臂为研究
现实世界中,关系普遍存在于事物之间,其中不同类型事物间的关系适合用二分图来建模,它们可用于识别或表示单个事物,价值不可估量。为了让计算机理解并充分利用这些关系,我们需要为每个节点学习向量表示,使其可用于其它机器学习模型。因此有必要充分考虑二分图的属性,来设计适合二分图的模型。本文首先调研了图表示学习模型的现状及缺陷,发现它们不适用于二分图,未能同时建模二分图所蕴含的显式和隐式关系,或由于线性结构而
在轨道交通领域,客流计数能够实时监控不同区域的客流情况,为引导分流等安防措施提供了保障,也为票务清分提供了有效依据。随着深度学习的快速发展,利用神经网络已经是计算机视觉的常规办法,如何设计更加轻量化的模型同时不大幅降低检测效果,是基于深度学习行人检测问题中十分有现实意义的问题;同时在轨道交通场景中低视角的监控角度导致行人遮挡更为严重,需要研究更加适用的行人跟踪算法。本文针对轨道交通场景下,客流计数
MEMS微镜的日趋成熟为激光雷达扫描光路设计提供了新的思路,但是其有效镜面尺寸的限制使得光束准直扫描光路设计中难以兼顾小的发散角、大的扫描范围以及高的发射效率,给激光雷达发射光学系统设计带来了很大的难度。为此,论文引入遗传算法,研究了MEMS激光雷达扫描发射光学系统理想镜组参数的最优化设计问题,得到了满足光学系统约束条件的最优化设计结果。论文在深入资料调研的基础上,梳理了项目组已有MEMS激光雷达
学习样本间的距离度量是计算机视觉领域的一个基础而又重要的课题。近年来,随着深度学习在计算机视觉领域的快速发展,深度度量学习也得到了广泛的关注与研究。深度度量学习主要是通过深度神经网络学习得到满足距离关系的特征嵌入。尽管目前深度度量学习方法相较于传统度量学习方法已经取得了较大的进步,但其仍面临着一些挑战。大部分深度度量学习工作均基于正负样本对的相对距离的三元组关系展开,而基于正负样本对的绝对距离的二
机器学习涉及生活的各个方面并取得良好的效果,但传统的全监督学习算法需要大量的人工标注信息进行训练。在这种情况下,半监督学习(Semi-Supervised Learning,SSL)被提出并引起了广泛的关注。因为仅存在少量的标记样本,所以半监督学习算法往往受到带标签离异点的影响。为了提高半监督学习算法对于离异点的鲁棒性,本文基于Welsch损失函数设计了两个半监督学习算法并实现了一个验证系统,具体
随着社会的发展与科技的进步,信息技术亦得到了空前发展,在此背景下,基于互联网信息技术的新媒体成为了当下时代传媒行业的"新宠儿"。对于传统电视媒体而言,新媒体的兴起既对其造成了巨大冲击,也为其带来了新的发展契机。在新时期,日渐衰落的电视媒体若想突破时代的桎梏,则势必需要将自身的优势与新媒体的优势进行融合,实现二者的融合发展。为实现该目的,本文将对新时期电视媒体与新媒体融合发展的必要性、电视媒体与新媒
信息技术的高速发展使得网络空间安全问题愈发严重,传统的防御体系由于其确定性和静态性,已经无法应对未知的安全问题,网络空间这种不平衡的现状不断威胁着各行各业的信息安全。为了改变这一被动的局面,邬江兴院士提出了一套主动防御架构,即网络空间拟态防御架构(CMD)。该架构围绕动态、异构、冗余三大特性,针对未知的攻击行为,通过使系统内部发生不确定的变化,导致攻击者难以实现攻击目的。作为拟态防御架构中的重要环
三国,一个太多精彩人物出现的时代。因为这些风度卓然的人物,三国就成为了永恒的话题。司马氏家族能在这英雄辈出的时代,以晋代魏,不是偶然。这个家族最杰出的人物、西晋王朝的真正奠基者司马懿到底是怎样的一个人?称自己为魏晋"贞士"的司马孚在这历史旋涡中是怎样挣扎的?戴着代魏和平吴大业光环的司马衷是否有着祖辈的文才武略?本期特别关注,诚邀三位专家,带我们一起走进"司马懿与他的家族"。
期刊