基于深度学习的人体语义分割研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zilianyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体语义分割是一种精细的语义分割任务,其目的是在像素级尺度上识别人类图像的组成部分(如身体部位和衣服)。理解人类图像的内容,对电子商务、人机交互、图像编辑和虚拟现实等一些潜在的应用很有应用价值。目前,随着基于语义分割的全卷积神经网络的发展,人体语义分割取得了重大进展。人体语义分割与一般的图像分割相比,其难点主要有以下几个方面:首先,人体语义分割在实例场景下的数据比较复杂,涉及到多种场景,例如多人或者人在做出一些复杂动作的时候,都会影响到训练的准确率;其次,人体语义分割是一项十分精细的分割任务,这导致了在分割时它的语义边界可能会出现边界比较模糊的情况,这也增大了人体语义分割的难度。为了适应日益增长的人体语义分割的工程应用,用于分析全卷积网络的语义分割研究日趋活跃。本文以真实场景下的人体语义分割为研究课题,以深度学习为方法,主要研究内容分为以下部分:基于全卷积网络与编码器解码器结构的人体语义分割。作为语义分割这一领域最为重中之重的网络结构,全卷积网络解决了传统的卷积神经网络在分割方法上的不足之处。本文基于全卷积网络本身的转置卷积和跳级结构的优点,参考SegNet设计了编码器解码器网络对全卷积网络进行优化,通过最大池化保持了平移不变性,实现了较好的鲁棒性。通过实验,本文证明了具有编码器解码器结构的全卷积网络比起一般基于卷积神经网络的图像分割方法有巨大的优势。基于上下文知识整合的人体语义分割研究。针对全卷积网络存在的结果不够精细和缺乏空间一致性的两个缺点,本文使用了基于上下文知识整合的方法进行优化。本文主要使用了条件随机场,扩张卷积两种方法对网络进行多尺度优化。在传统的语义分割模型上使用空洞空间卷积池化进行了改进,能更加有效地捕捉到多尺度信息。本文的实验结果表明,在不同数据集上的人体语义图像分割基准测试中,本文所提出的模型比其他版本的训练网络有了明显的改善。
其他文献
航空图像目标检测作为计算机视觉目标检测的分支领域,不仅能够应用在军事侦察、导弹制导、无人机武器系统等国防领域,而且能够应用在交通监控、资源探测、环境监测、城市规划等民生领域。航空图像具有视场变化大、旋转变化大、背景复杂等特点,航空图像目标检测任务具有目标尺度变化大、目标疏密变化大、目标重叠、遮挡等难点。在研究现状下,当前基于CNN(Convolutional Neural Network)的航空图
交通环境是一个具有多个信息源并且极其复杂的动态场景,包括与当前驾驶任务高度相关的目标和其他冗余目标。有经验的驾驶员在视觉选择注意机制的作用下可以快速完成信息的筛选过滤,并将注意力集中在车辆、行人、摩托车、交通灯、交通标志等显著性区域来保证驾驶安全。尤其当出现雨天天气时,由于能见度低、路面湿滑、雨水滑落和雨伞遮挡行人等因素使驾驶任务变得更加困难。另外交通环境是瞬息变化的,一旦忽略了某些与驾驶安全相关
机器问答技术是自然语言处理技术中发展最迅速也是最重要的技术之一,机器问答技术可以帮助人们从高速发展的互联网和信息技术产生的巨量文本信息中快速便捷地获取问题的答案。本文主要对长篇幅上下文多跳问答技术进行了多方面的研究,提出了基于支持句推理和精准问答的两阶段长上下文多跳问答框架和多种深度学习模型,来帮助用户快速地从长篇幅的文本信息中得到问题的答案。本文的主要工作如下:1.本文提出了基于支持句推理和精准
外骨骼作为综合性的科技产物,在军事、医疗、娱乐等领域应用前景广阔。外骨骼由于其自身结构的特殊性,精确的动力学模型无法直接获得,因此研究外骨骼动力学模型辨识和人机交互控制有着十分重要的意义。本文以实验室自主设计的二自由度下肢外骨骼为研究对象,首先针对传统无模型控制的局限性,给出外骨骼拉格朗日(Lagrange)动力学模型的建立过程以及利用智能群优化算法对动力学模型中的未知参数辨识进行辨识的过程。然后
目前下肢助力服可以包括柔性助力服与刚性助力服,下肢刚性助力服多为刚性连杆构成,存在结构复杂、重量大、运行功耗大等众多缺点。下肢柔性助力服以柔性材料驱动实现助力,拥有穿戴方便,重量轻等众多优点。因此,研究下肢柔性助力服的控制策略对各个关节实现高效助力有着重要研究意义。本论文对下肢柔性助力服的控制策略进行研究,主要研究机主人辅运动下的控制策略、人主机辅随动控制下的控制策略以及随动控制参数优化。建立下肢
由于人民生活水平的逐步提高,对于吃穿住行的选择也变得以舒适、便捷为首要条件,在“行”这一方面,私家车逐渐成为大众出行的交通工具,在国庆等节假日交通流量更是成倍的增长,交通事故的发生也是呈增长的趋势。分析其原因,驾驶员在疲劳和酒后驾驶造成的事故占比最高,其中酒驾行为可以通过酒精含量探测器去管控,而疲劳驾驶更多的是依靠驾驶员自身去管控。因此,设计一款疲劳驾驶检测系统在实际生活中显得尤为重要。本文在完成
在依靠实时着色方式来着色三维场景从而得到着色效果的应用领域中,例如游戏、工业仿真以及建筑设计等领域,通常需要着色效果逼真的图像为用户提供身临其境的感觉。实时着色可采用的光照模型有很多,例如Lambert光照模型、Phong光照模型以及PBR光照模型等。为了使实时着色的效果更加逼真,在实时着色时一般采用PBR光照模型来对三维场景着色,PBR光照模型会对三维场景中模型的材质预先设定,这样在光照计算时会
作为计算机视觉领域内的主要研究方向之一,目标检测的核心目的是对每张输入图像的待检测目标进行分类和定位。自2011年以来,在深度学习的辅助下,目标检测任务在医学影像、军事运用、信息挖掘等领域取得了诸多成果。然而基于卷积神经网络的目标检测技术依旧存在诸多问题。首先现阶段常见的轻量化方法忽略了特征集合自身的特点;其次,不同尺寸的目标的检测精度参差不一,检测效果处于劣势的小目标对整体精度的测算带来很多负面
当前,人们对于对流初生短临预报的需求日益增长,随着深度学习技术的不断深入发展也使得利用深度学习方法进行对流初生短临预报成为了可能。虽然我国近几年在灾害性天气中的预报取得了长足的进展,但传统的数值天气预报方法在对流初生短临预报上仍面临较大的挑战。在本论文中,针对对流初生短临预报问题,我们尝试使用深度学习的方法提升预报模型的时效性和准确性。本论文依托中国电子科技集团公司第十四研究所所控横向项目开展工作
随着经济的增长,中国的汽车总数逐年增加,这大大增加了交通事故和交通堵塞的可能性。无人驾驶作为一种新的研究领域,期望能优化由汽车带来的一系列交通问题。无人驾驶的研究是复杂且长期的,它包含了多个方面的研究,信息采集就是其中的一个。信息采集包含了对道路中各种关键信息的检测,包括车道线、红绿灯、交通标志等。本论文以无人驾驶领域中的交通标志检测为研究课题,重点研究了基于YOLO v3改进算法的交通标志检测、