基于卷积神经网络的语义分割算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:carol123450
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义分割作为基础的计算机视觉处理任务,其本质上是利用对像素点的分类把图像划分为若干个不同且有意义的区域。从宏观上来看,语义分割是场景理解的必要步骤,是将图像由具体变为抽象的过程。随着计算机视觉的发展,语义分割在自动驾驶、医疗诊断、遥感图像分析等领域中具有非常重要的应用价值。近年来,基于全卷积神经网络的语义分割方法作为一个较新的研究方向受到了广泛的关注。在无数研究人员的共同努力下,基于深度学习的语义分割技术显然已相对成熟,但目前仍然存在一些问题有待优化。其一,为获取较大感受野会使得特征的分辨率下降从而导致细节信息的丢失;其二,深层次的特征提取网络由于卷积的堆叠使得物体边缘部分的特征表示不明显;其三,不同网络层中的特征信息都有助于优化最终的分割结果,但是简单的融合特征可能并不会带来理想的效果。本文针对这些问题,通过研究现有的模型,提出了相应的改进策略。论文主要研究内容及成果具体如下:(1)针对深度网络中由于下采样导致细节信息丢失的问题,本文在第三章中以Deep Lab V3+为基础结构,提出了基于边缘特征优化的双流语义分割算法。该算法以传统的RGB图像与一阶梯度图像作为输入,通过并行的网络结构同时处理语义信息与边缘信息。在特征提取过程中,本算法新设计了一个特征融合模块用于实现两个分支间信息的交互,从而帮助边缘流在简单的结构下快速过滤掉一阶梯度图像中无用的噪声信息。在解码阶段,本算法通过特征合并利用学习到边缘信息帮助语义流恢复丢失的空间细节信息,从而获取更加精细的分割结果。(2)针对卷积网络中特征平滑的问题,本文在第三章的基础之上,提出了基于稀疏注意力的双流语义分割算法。该网络以双流语义分割模型为基础,通过在解码阶段加入新设计的稀疏注意力模块帮助网络优化部分向量的特征表述,提升网络分割的性能。经典的自注意力模型通过密集的相似性建模虽然可以有效地强化语义特征的特征表示,但是其带来巨额的资源消耗问题对于一些计算资源紧缺的研究人员来说是不可以接受的。在保证性能的前提下,本算法在原始的自注意力基础之上稀疏化了模型中关键的0)和0)两个矩阵,而后通过稀疏的相似性建模改善计算资源消耗的问题。此外,为保证稀疏注意力能够捕获密集的上下文特征,本文受K-means算法的启发,提出了类注意力模型来优化向量与分类中心的距离,并将其嵌入到了稀疏注意力模块中。(3)针对深度网络中细节信息丢失以及特征融合问题,本文在现有的网络基础之上,提出了基于多尺度特征融合及边缘特征学习的语义分割算法。低层特征分辨率高、卷积的感受野小,包含较多有用的位置、细节信息,但是对语义的抽象能力差。相反,高层特征卷积的感受野大,具有更强的语义信息,但是分辨率低,对细节的感知能力较差。本方法同样以经典的Deep Lab V3+网络为基础,通过先自浅到深、再自深到浅的多尺度特征融合模块整合不同网络层中有用的语义信息及空间边缘信息。在解码阶段辅以新设计多任务解码网络,通过预输出监督学习边缘特征及语义特征来帮助多尺度特征融合模块更精确地过滤掉无用的噪声信息。在最终的分割阶段,通过合并学习到的语义特征和边缘特征来进一步细化的分割结果,提升网络的整体性能。最后,文章在公开数据集上通过大量实验分析论证了本文所提算法的优良性能。
其他文献
图像分割作为目标分析与识别、目标跟踪等高级图像处理操作的一项基础且关键的步骤,其分割结果的好坏直接影响后续处理操作。现有的图像分割算法可根据人工参与与否,将其分为交互式分割和自动分割。前者由于其良好的分割性能,得到了广泛的应用。但当面对的图像数据量较大时,相应的需要消耗更多的人力且较费时,无法满足实际需求。近年来,基于视觉显著区域检测算法的研究取得了不错的成果,许多研究人员将其与已有图像分割算法结
视频多目标跟踪主要利用视频上下文信息,对多个目标的外观信息和运动信息建模,实现对目标运动状态的预测和更新,并标记出目标轨迹。视频多目标跟踪涉及了深度学习、机器学习、最优化算法等多个方面的理论知识。随着计算机硬件和数学理论的发展,各种视频多目标跟踪系统纷纷实现,尤其广泛应用于行为识别、交通监控、智能驾驶、人机交互和无人机监控等,在视频目标跟踪领域的深度和广度上有着不同程度的应用。本文围绕随机有限集在
针对目前自然场景图像中的文本检测存在的问题,本文对自然场景图像中的文本检测方法进行研究。本文设计了基于卷积神经网络的端到端的文本检测框架,实现提高文本检测精度、降低检测模型复杂度的目的。本文的主要研究内容如下:1.基于自适应特征选择和尺度损失函数的文本检测方法。日常生活中的文本非常多样化,并且存在许多杂乱的背景,为了解决这些问题,本文提出了一种自适应特征选择的神经网络。这个网络由两个部分组成,第一
近年来伴随各类社交与电子商务平台迅速发展,网络上用户生成内容出现爆炸式的增长。用户在社交平台与电商平台发表的评论中,包含了大量的文本信息,往往从多个方面反映了其对某些事件或者商品的情感倾向。分析这些包含情感极性的信息,能够有效帮助商家改进产品和改善服务,供政府相关部门了解舆论情况,以制定相应政策,同时也能让其他用户了解事件的社会评价。文档级情感分析方法能够获取整个文本的情感极性,但难以感知文本中不
自上个世纪六十年代,人脸识别初次在数字图像处理领域中崭露头角,已走过长达半个世纪的发展之路,识别研究也从单一的仿真环境到适应多种多样的复杂环境、也从简单且光照充足无变化的正脸图像到多种表情变化,大年龄跨度以及多重遮挡的人脸。虽然发展至今,在特定的约束环境下,现有诸多人脸识别算法可以取得优秀的识别效果,但若应用至实际生活中,剥离设定好的特定环境,面对现实生活中的低分辨率人脸往往识别性能不够理想。本文
21世纪以来,随着人民生活水平的提高,人民对于衣物的需求量越来越大,也促使织物的产量变得越来越大。为了满足这种现状,织物的生产过程逐渐智能化,其中,一个关键环节就是对织物缺陷进行检测。现在国内大部分企业选择传统的人眼检测法,但是这种方式易受检测人员的主观影响,同时也极其考验检测人员的体力与眼力,因而造成了检测效率及精度低下的后果。为了解决上述问题,越来越多的学者将机器视觉技术应用在缺陷检测领域,且
近年来,车外抛物问题越来越受到社会各界的关注。车外抛物这种不文明现象给交警部门以及市政部门及时清扫带来巨大挑战。如何有效地解决车外抛物问题已成为交警和市政部门亟待解决的问题。尽管深度学习的研究已经取得了很大的成就,并已广泛应用于各种场景(如:车牌识别和交通流量预测),但仍有许多问题尚未完全解决。例如,如何及时有效地检测出交通领域内车外抛物的问题仍然是一个亟待解决的问题。一般来说,传统的方法(如:支
互联网上产生大量的非结构化文本数据,如何有效的从这些非结构化的文本数据中挖掘并抽取实体和关系信息就要涉及到实体关系抽取研究;这对知识图谱和自动问答等下游应用的构建具有较强的理论意义和实用价值。本文主要以Transformer特征提取模型为基础,通过对现有实体关系抽取模型的改进,提高实体关系抽取的性能。主要研究内容如下:(1)针对Transformer模型在实体关系抽取任务中性能不佳的问题,本文抛弃
行人检测是计算机视觉领域的重点研究课题,在智能交通和自动驾驶领域有着广泛的应用。近年来,基于多光谱图像的行人检测方法由于结合了可见光图像和红外图像的信息,在全时段的检测环境中具有明显优势,已成为当前的研究热点。但由于交通道路场景的复杂多变,多光谱行人检测算法仍会受到光照和温度等环境条件变化的影响,要满足自动驾驶实际应用的准确率需求仍存在一定困难。本文针对多光谱行人特征的表达方式和融合方法进行研究,
车联网(Internet of Vehicles,Io V)使得车辆间能够通过无线通信交换感知到的道路状况以及车辆运动状态等信息,并根据接收到的信息及时做出反应来减少交通事故、缓解交通拥堵以及节省能耗。然而,由于车辆在复杂多变的环境中高速运动,车辆运动状态时常发生变化,网络拓扑变化频繁,导致网络时延、数据传递率等通信性能实时变化。一旦车联网通信性能无法满足基本的通信需求,车辆无法及时地收到安全信息