基于卷积神经网络的视觉语义分割技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:tom0101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉语义分割是计算机视觉领域的关键问题之一,其目标是对图像、视频等数据在像素级别上进行分类,给出每一个像素点的标签,这是一种应用于场景理解的任务。因其在医疗诊断、自动驾驶、机器人、增强现实等领域广阔的应用前景,视觉语义分割技术成为研究的热点。随着深度学习在计算机视觉领域取得的诸多突破性成果,大量的深度学习方法被运用在语义分割中。本文以深度学习理论为基础,研究了基于卷积神经网络的视觉语义分割技术,包括对图像和视频的语义分割。
  本文的主要工作总结如下:
  1.针对语义分割中特征提取不充分、特征利用不充分、参数量大的问题,提出了多特征融合的轻量化图像语义分割网络。所提出的网络基于“编码器-解码器”结构,在“编码器”部分,网络结合深度可分离卷积和密集连接,能够将不同网络层的特征联系起来,增强了网络提取特征的能力,同时降低网络的参数量,使得网络结构轻量化;在“解码器”部分,网络采用了一种优化的特征融合方式,将“编码器”提取到的特征与“解码器”中对应的特征相融合,提升了网络的准确率。在训练过程中,网络采用带权重和指数参数的损失函数,可以使损失函数更快地收敛,减少训练时间,并且对于准确率的提升也有帮助。以医疗辅助诊断为应用背景,多特征融合的轻量化图像语义分割网络在视网膜眼底图像数据集DRIVE上进行了验证,取得了目前最好的分割效果。
  2.针对语义分割中计算复杂、运行速度慢、难以应对视频实时处理和语义分析的问题,提出了结合光流的视频语义分割网络。视频与单一图像不同,视频帧与帧之间存在着大量的时空相关性,所提出的网络可以有效利用视频帧与帧之间的相关性,达到降低网络计算复杂度、提高网络运行速度的目的。在对视频的处理过程中,网络对于某些稀疏分布的视频帧进行图像语义分割,而对于其余帧,则通过光流进行特征传播,进而得到语义分割结果,这种方法大大提升了网络对视频的处理速度。以自动辅助驾驶为应用背景,结合光流的视频语义分割网络在城市街景数据集Cityscapes和CamVid上进行了验证,取得了更好的效果。
  3.针对视频语义分割中如何更好地选取关键帧的问题,提出了自适应视频语义分割网络。在对视频的处理过程中,需要对某些稀疏的帧进行图像语义分割处理,这些稀疏的帧就是关键帧,关键帧的选取是一个重要的问题。为了更好地选取关键帧,在所实现的网络中提出了一种自适应关键帧选择策略,可以根据场景变化自适应确定关键帧,以实现在处理速度和分割精度上更好的平衡。同样以自动辅助驾驶为应用背景,自适应视频语义分割网络在城市街景数据集Cityscapes和CamVid上进行了验证,取得了更好的效果。
其他文献
随着大数据时代与互联网时代的发展,多媒体数据在人们生活中扮演着重要的角色,极大地便利人们的生活。然而在数据的传输与处理的过程中,信息安全问题显得尤为重要。尤其是随着云计算技术的普及与应用,云端存储的海量数据的安全保护问题更为严峻。如何保障信息传递过程的安全性、信息内容的完整性,成为学者们广泛研究的方向。图像加密域可逆信息隐藏技术结合了图像加密技术与可逆信息隐藏技术,在图像传递过程中对图像内容进行加
学位
近些年随着汽车的普及,道路交通安全日益成为人们普遍关注的焦点问题。科学技术的发展带动了汽车核心技术的革新,其中提供辅助驾驶功能的毫米波车载防撞雷达因其体积小、功耗低、精度高、抗干扰能力强等优势,成为目前车载传感器的主流方案。本文将以毫米波车载防撞雷达为研究对象,对现阶段毫米波雷达信号处理中的关键技术展开研究,并针对目标检测与参数估计中存在的问题提出具体有效的改进算法,最终形成一套完整的、可行的毫米
学位
随着深度卷积神经网络的兴起,自然场景中的文本检测得到了广泛关注。场景文本检测具有很大的应用价值,比如广告过滤,场景理解,文档分析以及机器人导航等等。但是,因为尺寸、长宽比和方向的巨大变化以及图像扭曲、极端的照明情况和遮挡问题,场景文本检测仍然面临着巨大的挑战。本文的主要工作和创新如下:  1.本文研究了基于语义分割的文本检测算法EAST,并提出了一种含有空洞卷积的场景文本检测算法AC-EAST。A
学位
本文针对毫米波大规模多输入输出(Multiple-Input and Multiple-Output,MIMO)系统,分别研究了基于经典方法与基于深度学习方法的信道估计。其中经典方法包括过采样与基于旋转不变技术的信号参数估计(Estimating Signal Parameters via the Rotational Invariance Techniques,ESPRIT)。  首先对于使用过
近年来,随着医疗水平的快速发展,先进的医疗设备开始广泛应用,众多医疗数据得以有效保存。临床医学作为医学研究与临床诊断的桥梁,数据具有多样性、高维性、冗余性等特点,合理的医疗数据分析手段对了解发病原因、辅助医生诊断、疾病预防等具有重要意义。  心身疾病作为一门新兴的临床科学,确诊过程不仅需要精密仪器的检测,还需要医生凭借丰富的临床经验问诊,数据收集繁杂,具有临床实践的特殊性。抑郁症是一种常见的心理疾
学位
细粒度图像识别是计算机视觉领域中一项颇具挑战性的研究课题,目的是区分同一大类下各个不同的子类。与跨物种的粗粒度图像识别任务相比,细粒度图像数据集内不同种类的目标外观相似程度较高,而同一种类的目标由于姿势、视角和光照等因素导致视觉差异显著,因此使用普通的深度学习图像识别技术难以精准地判断细粒度目标类别。强监督细粒度识别算法借助目标边界框或部位标注点等额外的监督信息构建检测模型,从而对图像判别性区域进
学位
伴随着新一轮的技术革命和产业革命,高级辅助驾驶系统(Advanced driver assistance system,ADAS)作为一种极为重要的主动安全技术,极大提高了人们出行的安全指数,保障了生命和财产安全,成为近年来汽车产业的研究热点与产业趋势。毫米波雷达凭借其体积小、成本低以及不易受恶劣环境因素影响等特性,被视为ADAS系统感知层的核心传感器之一,并成为车载雷达应用的主流。车载毫米波雷达
数字图像相关 (DIC, Digital Image Correlation) 测量方法可用于测量物体表面位移,因其设备简单,非接触测量,使用环境要求低等优势,已经成为光测力学学术界和工业界最为活跃的测量方法。然而,算法与计算参数的选取等诸多因素影响着数字图像相关方法的亚像素位移测量精度,且当前亚像素位移测量精度相对较低,无法满足目前工程上对精度的需求,因此,本文主要围绕如何提高数字散斑相关方法的
学位
随着无线通信技术的飞速发展和无线通信业务的稳步扩展,电磁环境越来越复杂多变,无处不在的人为及自然干扰成为宽带通信高质量、高速率及高效率传输的最大障碍,智能化抗干扰系统的研究尤为迫切。作为智能抗干扰系统核心的信道检测模块,其性能直接决定了后续参数决策的准确性以及系统抗干扰性能的优劣。传统的信道估计方法一般采用均匀导频和线性插值,导致频带利用率低及恢复精确度不高等问题。而基于压缩感知的估计方法则通过稀
学位
随着计算机技术的飞速发展,图像作为信息技术中的重要传播载体,在信息的传播中占据着非常重要的地位,在大数据时代,如何高效地处理海量图像信息成为研究的热点问题[1]。随着人工智能的热潮的涌起,利用高度智能化的机器来替代各行各业的人工工作已经成为一种趋势。光学字符识别(OCR,optical character recognition)技术是计算机视觉中重要的组成部分,它模拟人类的视觉智能地对图像中的信
学位