基于深度学习的单人体解析算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:ywanywhere
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单人体解析作为图像语义分割领域的一个重要分支,目前在人体行为识别、行人再识别、图像人体检测等多种应用中扮演着重要角色。但受限于图像中人体及背景的多变性,传统的图像分割方法无法在单人体解析任务上取得良好的性能。目前基于深度学习中的卷积神经网络逐渐成为了图像语义分割的主流方法。相较于传统图像分割方法,卷积神经网络能够挖掘图像深层的语义信息。许多用于图像语义分割的网络模型也逐渐应用于单人体解析任务。但这些模型往往基于图像语义分割任务的共性进行设计,因此在单人体解析任务上无法取得令人满意的性能。目前,在单人体解析任务中性能较优的方法均针对人体的特殊性进行了相关优化。例如基于人体结构关键点的弱监督学习方法以及JPPNet网络模型。它们均从人体结构的角度出发,并利用结构损失对人体解析任务进行优化。本文基于国内外的相关研究,探讨基于注意力机制以及人体边缘检测对单人体解析任务的优化方法。本文的主要研究工作内容如下:(1)分析单人体解析任务的研究现状。基于LIP数据集构建本文的训练集和测试集,并基于多种图像变换的方法对数据集进行数据增强。对多种常见单人体解析模型进行训练并测试。通过实验验证在本文构建的数据集下,JPPNet模型相较于其他单人体解析模型能够取得更好的人体解析效果。通过分析JPPNet的人体解析结果,本文认为JPPNet存在着一定的改进空间,并针对性地提出两种改进策略。(2)基于SmoothNet中所提出的通道域注意力特征融合方法,本文设计与实现了基于卷积块注意力特征融合方法。卷积块注意力特征融合方法是一种结合了通道域和空间域的特征融合方法。相较于通道域注意力特征融合方法它能够更好的挖掘不同层级的语义特征图之间的关联性。并且本文将这种特征融合方法应用在空洞空间金字塔池化上,以改进JPPNet实现更好的单人体解析效果。(3)基于注意力机制实现的JPPNet_cbam与JPPNet_cab模型,能够同时实现人体解析功能和人体姿态估计功能。而人体姿态估计功能是通过预测一组人体结构关键点实现的。为了探究模型中单人体解析任务与人体结构关键点预测任务之间关系。本文为人体解析损失函数和人体结构点损失函数设置了多组权重系数,通过实验结果验证了模型实现良好的人体姿态估计结果能够帮助模型更好地学习人体结构信息。(4)本文认为人体边缘预测与人体解析存在着边缘一致性。因此,本文基于多任务学习的研究思路设计与实现了人体边缘感知模块,并将其融入JPPNet_cbam模型中,并通过实验结果分析不同损失函数以及不同的权重系数分配对模型进行人体边缘检测的影响。同时通过实验结果验证人体边缘检测任务对单人体解析任务存在着优化效果。
其他文献
光纤布拉格光栅(Fiber Bragg Grating,FBG)是当前光纤传感领域中发展和研究潜力最大的光纤类传感器之一。对FBG大规模组网,通过波长漂移和位置信息,可以实现对复杂工况的分布式传感监测。在现有的技术中,基于干涉和时分复用的FBG波长解调系统具有大容量、解调速率高的优势,但由于使用的宽谱光源一般需要添加带通滤波器滤除底噪,而光源信号的相对强度噪声随带宽的下降而上升,导致系统的信噪比较
学位
在包括强度、波长、频率、偏振态等多种光纤传感调制形式当中,基于光学干涉的相位调制型光纤分布式声学传感(Distributed Acoustic Sensing,DAS)技术具有极高的灵敏度和广阔的应用前景。然而,在现有的光纤DAS系统中,普遍采用单波长或者合成波长进行光干涉测量和相位解调,其局限性在于相邻采样点之间的相位变化不能超π,否则必须提升解调系统采样率,这会极大地加重大容量长距离DAS阵列
学位
关系抽取作为自然语言处理中的重要研究领域之一,旨在发现半结构化与非结构化文本中存在的关系类别信息,在知识图谱的构建、问答系统的搭建和信息检索的优化等多个场景中都有着广阔的应用前景。远程监督研究以现有知识库的三元组信息对标待处理文本,减少人力资源投入的同时亦可获得较好的分类效果,是目前主流的关系抽取手段。然而受其基于的假设影响,生成的训练语料中不可避免地引入了标签噪声,如何减少训练过程中噪声数据对关
学位
声源定位在军事和民用领域具有广泛的应用和无可替代的价值,采用麦克风的声源定位技术是最主要的定位方法之一,但麦克风不具备遥感能力,不能抗电磁和射频干扰。光纤光栅分布式声学传感(Distributed Acoustic Sensing based on Fiber Bragg Grating,FBG-DAS)技术因为具有灵敏度高、体积小、抗电磁干扰和分布式远距离传感等优势,在某些领域已经替代传统麦克风
学位
碳化硅(Silicon Carbide,Si C)优异的物理化学性质使其可以在高温高压等极端环境下工作,被认为是最有前景的第三代半导体材料之一。但是Si C是间接带隙半导体,发光效率低,发光难度大,限制了其在光领域的应用。本文针对这一点,利用光子晶体结构和量子限域效应,设计了三层结构的二维光子晶体的Si C纳米薄膜,使用磁控溅射法制备了荧光Si C薄膜,增强了Si C的光致发光性能。(1)使用扫描
学位
图像重着色是图像处理的一个流行领域,被广泛地应用于美术、电影、色盲可视化等领域中,其关键是要根据用户的意愿,将图像中的某一部分的颜色自然生动的变成另一种颜色。基于调色板的图像重着色算法是近年来实现图像重着色的最热门的算法,但其在对复杂光照下的自然图像重着色时,实验结果产生了颜色失真,溢出以及光照信息变化等问题。针对上述问题,本文将自然图像重着色任务分为调色板提取和图像重着色两部分进行了研究,主要研
学位
脑卒中存在着高复发率、高死亡率和高致残率的问题,脑机接口(Brain Computer Interface,BCI)技术作为一种新的信息交流方式,能够有效应用于脑卒中领域的医疗康复。脑卒中患者通过运动想象(Motor Imagery,MI)脑电(Electroencephalography,EEG)信号可以完成对外部设备的直接控制,该过程具有自发性和积极性,有助于诱导患者进行大脑神经回路重塑,从而
学位
在当前的公钥密码体制中,对用户私钥保护的主要措施有专用密码硬件、可信执行环境、软token验证、秘密共享等等,其中专用密码硬件安全性高,但成本过高且不易携带;可信执行环境与软token验证成本相对较低,但容易受到黑客攻击。秘密共享对于用户私钥的秘密采取分开保存的方法,只有获取所有的秘密份额才能破解用户私钥,具有成本低、灵活性好、安全性高等优点。SM9是国家密码管理局发布的基于双线性对映射的公开密码
学位
无人船具有安全性高、高效灵活、可以节约人力物力等优势,是一种新型的平台,具有很大的发展潜力,近年来受到了各个国家的关注。无人船在港口挂靠期间,需要根据所处场景控制船体航行状态,因此水上场景识别技术是无人船智能化发展的重要保障。尽管可以利用现有的基于深度学习的场景识别方法,从海量的视觉数据中学习到不同的模式,训练出具有泛化能力的模型对水上场景图像进行识别,然而针对水上场景图像存在的包含特征丰富、标志
学位
数字处理技术的发展使得对图像进行分析、操作和处理,最终转换为计算机可识别三维模型的方法越发高效,相较于无须考虑视角影响的单张图像,多视图三维重建因自然图像标注视角的缺乏而面对不小的挑战,如何高效利用图像特征实现自然图像的目标视角估计与三维重建已经成为亟待解决的问题。现阶段,各类别图像视角估计模型独立不相关且三维重建模型大多仅利用了单张图像的深层语义特征,模型参数冗余且图像特征利用单一。由于多视图目
学位