基于迁移学习的图像语义分割研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zzy101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于卷积神经网络的有监督图像语义分割方法的研究取得了巨大进展。针对该方法所依赖的手动标签获取繁琐、费时的问题,一种流行的解决方法是通过游戏视频来收集类似于真实场景的图像并自动生成标签,随后利用迁移学习将合成场景训练的模型迁移到真实场景。由于域间差异,简单地将合成场景(源域)上学习的模型应用到真实场景(目标域)一般会出现较高的泛化误差,本文立足于迁移学习在图像语义分割中的应用,主要工作如下:(1)提出一种基于熵最小化的语义分割网络训练方式。传统基于熵最小化的方法可能会导致模型预测结果偏向于数据集中的某一类,针对这一问题,我们基于孪生网络结构的设计思想提出使用约束网络。首先在训练集上训练约束网络并固定网络参数,然后在使用熵函数训练分割网络时最小化约束网络输出特征图与分割网络输出特征图之间的距离。实验表明,本文提出的方法对最终分割准确度有较为明显的提升。(2)针对基于生成对抗网络的迁移图像语义分割,提出使用空洞卷积设计域鉴别器。鉴别器网络的性能对迁移图像语义分割的整体性能影响很大,通过使用空洞卷积替代传统卷积设计域鉴别器,在不额外增加训练参数的基础上进一步扩大了感受野。实验结果表明,本文提出的基于空洞卷积的域鉴别器对迁移图像语义分割方法性能提升明显。(3)提出一种图像风格转换技术对源域图像进行转换预处理。常见的特征域适应方法部分解决了域间差异的问题,但是,合成图片与真实图片在视觉(如外形、光线等)上存在的诸多差异使得很难仅从特征层的域适应角度减小域间差异。为此,我们使用注意力空间金字塔池化结构设计了一种图像风格转换网络,用于减小源域图片与目标域图片在像素级别的差异。实验论证了本文提出的图像风格转换技术对于迁移图像语义分割算法的有效性。
其他文献
随着人工智能的兴起,图像数据呈爆炸式的增长,文档文本检测已不再满足人们的日常需要,更多的将是对场景文本的进一步研究。而场景文本检测又由于其特殊性,受到诸如光照、背景复杂度、文本多样性等多种因素影响,已成为近几年研究的热点之一。目前主流检测算法主要基于深度学习的方式,针对多方向文本边框的线性特征设计且均具有较好的检测结果,但由于曲线文本自身的特殊性即对应表征方式未能实现边缘轮廓的精准定位,造成精度下
伴随着人机交互的普及,以及深度学习技术在计算机视觉领域的不断成功,基于深度神经网络的面部表情识别已经成为情感计算中的热门研究方向。在面部表情识别研究中,通常会面临三个方面的突出问题,第一方面,实际应用中图像采集设备捕捉到的人脸往往难以保证都是正脸,不可避免的会出现大量各种姿态的面部图像。然而,当前大部分的面部表情识别研究通常只针对正脸图像,当人脸姿态存在较大角度的旋转时,识别精度大幅下降。稳定可靠
“歌唱性”是音乐表演艺术必需具备的一种演奏状态,其描述的不是单纯音与音之间的连贯问题,也不是持续音之间相互连接的问题,而是情感状态的连接问题。钢琴独奏曲《松花江上》是崔世光依据原同名声乐独唱曲改编而成,作品充分利用了钢琴的优势,在保留原旋律的基础上将织体、音区、力度、和声等方面极大地扩展,强化了音乐的张力,使作品中的情感表达内涵得到丰富,“歌唱性”的表现视角得到扩充,增加了无限的艺术魅力。在长期的
机电一体化技术是一项综合性技术,涉及范围广,囊括了机械技术、计算机技术、电子技术等。在信息化技术持续发展中,人们对机电一体化技术的重视程度逐渐加深,其逐渐运用到各个领域中,为推动我国现代化建设作出了巨大贡献。本文首先对机电一体化技术及人工智能技术进行简单概述,然后探讨人工智能在机电一体化中的应用,最后展望人工智能环境下机电一体化技术的发展趋势。
近年来,随着社会技术的突飞猛进,尤其是人工智能技术的飞速发展,便捷的语音人机交互技术在文体领域的各类应用场景快速呈现。文体类应用场景中大多存在环境噪声过大的问题,严重影响实际人机语音交互的可靠性问题,该类问题统称为“鸡尾酒会问题”(Cocktail Party Problem,CPP),它一直是语音识别领域的热点研究问题之一。本文依托智能乒乓球训练项目,设计了一套智能乒乓球训练系统中的语音问答子系
信息科技进步催生了数据挖掘技术,聚类分析是数据挖掘中一项关键技术。聚类分析是一种无监督学习的技术,旨在不利用外部先验信息实现对未标记数据集的分类。聚类算法是聚类分析实现的主体,K-Means算法以其实现原理简单、时间复杂度低等优点广泛应用于聚类分析领域,但其存在K值需要预先设定、初始聚类中心随机选择易陷入局部最优解等不足。密度峰值聚类算法是一种新型的聚类算法,该算法具有原理简单、实现高效等特点,引
人脸表情识别技术作为情感计算领域中的一条重要分支,在安全驾驶、人机交互等方面有着较好的应用前景,研究人脸表情识别技术对推动人工智能的进一步发展具有重大的意义。现有的人脸表情识别技术主要适用于实验室条件下采集的人脸表情图像,但是在现实生活中采集的人脸表情图像大多会受到人体姿态、光照变化和遮挡等一些因素的干扰,增加了人脸表情识别的难度。本文研究基于注意力机制的人脸表情识别,主要工作内容如下:(1)在人
随着大数据和物联网等技术的发展,数据流已经成为一种新的数据形式,如何挖掘数据流中蕴含的信息逐渐成为研究热点。在有限的内存中快速处理数据流,以获取高质量的类簇划分的数据流聚类技术是数据流挖掘的一个重要方向。然而数据流聚类面临诸多挑战,基于密度的数据流聚类方法能够发现任意形状的类簇,但在概念漂移环境下存在参数难以设定、聚类精度低的不足;现有的数据流聚类方法不能很好地应对海量的多样化数据以及实现多源异构
高维数据由于自身直接处理的高复杂度和其本质特征的低维特性,结合日益增多的数据量和增大的数据样本维度,字典学习成为近些年来机器学习和计算机视觉研究领域的热点之一。字典学习算法应用于图像信号处理的基本假设是:自然图像本身具有稀疏特性,用一组过完备基(字典)将该图像信号线性表示出来,对应的表示在满足一定的稀疏度条件下,可以获取对原始信号的良好近似。从某种意义上来说,通用字典学习的优化模型是从信号恢复/重
相关滤波器在普通视频目标跟踪以及无人机跟踪方面都表现出了良好的性能,许多基于判别相关滤波器(Discriminative Correlation Filter,DCF)的方法在视频目标跟踪方面成功地利用构建模型缓解了边界效应和时间滤波退化问题。这些方法主要依赖于各种显式的先验正则化项,用一个结构框架来控制目标函数更新损失的退化,但往往忽略了数据保真项的损失,并且这些方法往往也会受到边界效应以及背景