基于高阶能量的视频目标分割方法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:sxxwmb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和计算机技术的发展,以视频形式存储的数据已经成为了信息传播的主要载体之一,视频所包含的信息相比于图像更加丰富,更具表现力和渲染力,其中不仅包含静态的空间信息,还有大量随时间变化的运动信息。所以,视频数据的处理和分析是一个很重要的研究领域,本文所研究的视频目标分割是其中的一个重要研究方向。视频目标分割是指需要人为预先指定待分割目标(通常是给出视频序列的第一帧的分割掩码),然后依据首帧掩码引导算法在视频的剩余帧中实现指定目标分割。该技术被广泛应用于视频特效、视频监控、自动驾驶、智能相机等诸多领域,因此,具备很高的应用和研究价值。本研究的目的是利用基于视频整体的全局信息构建一个高鲁棒性的模型用于视频目标分割。本论文针对大多数算法在面临目标外观突变、目标遮挡、目标消失与重现、监督数据稀缺、目标与背景难以区分等视频目标分割的固有难点时鲁棒性不足的问题,提出了有效的解决方法。具体如下:(1)本研究利用马尔可夫随机场对视频目标分割任务进行建模,将视频目标分割问题转化为马尔可夫时空图模型中的节点标记问题。并建模高阶能量函数求解节点标记的优化问题,通过最小化能量函数,获得视频序列的分割结果。(2)本研究利用文本分类思想在语义分类方面的优势来建模像素点的高阶依赖,即结合文本分类思想建模能量函数的高阶项来增强目标分割的全局一致性。实验结果表明,在该高阶能量的约束下,模型在鲁棒性和精度上均有显著提升且在与主流算法的对比中具有一定的竞争力。(3)本研究针对视频目标分割任务的监督数据稀缺问题,提出基于元学习思想的深度视觉字典算法。视频目标分割任务无法直接迁移语义分割模型的原因在于分割目标无法预先训练。因此,将元学习思想应用到视频目标分割任务中,即通过大量相似任务的训练,提升模型的泛化能力。实验结果验证了提出的算法的有效性。(4)本研究基于掩码学习的思想对像素点的高阶依赖进行建模来增强分割模型的鲁棒性。相比于(2)提出的基于传统特征的高阶项的建模方法,基于深度学习的高阶项鲁棒性更高,先验信息更加丰富。在多个数据集(DAVIS-2016和You Tube)上的实验结果表明,(4)提出的方法在鲁棒性和精度上较(2)提出的方法均有显著提升且在与主流算法的对比实验中获得了具有竞争性的表现。为了验证本研究提出的算法的有效性和高效性,本文在多个数据集(DAVIS-2016和You Tube)上进行了定性和定量评估。首先进行消融实验对不同参数的设置情况下模型的结果数据进行分析,实验结果表明提出的高阶项约束显著提升了模型的精度和鲁棒性;之后,在数据集DAVIS-2016和You Tube上设计了对比实验,将本文算法与领域内的主流算法进行了对比,结果表明,本文提出的算法在精度和鲁棒性上均获得了具有竞争性的结果,而且在某些极具挑战性的分割场景下甚至可以获得最好的分割结果。
其他文献
在当前减税降费背景下,我国财政收入增速放缓,地方财政面临较大支出压力,亟待新的税源进行补充。消费税目前已成为我国主要税种,在筹集财政收入、调节经济方面具有重要作用。本文结合消费税职能,分析现行消费税存在的问题,并从调整征收范围、后移征收环节、央地共享、价内税改价外税、地方分享财力使用等方面提出建议。
学位
内燃机因其具有高效的能源转换与强劲的动力输出特性,受到了各国交通运输企业、国防军工部门和能源动力部门的广泛关注。论文以高性能内燃机缸套为研究对象,针对缸套珩磨表面Rk粗糙度集预测、珩磨加工参数优化、缸套磨损量预测和缸套服役可靠性评估等相关问题进行了研究。为高性能内燃机关键部件的精密加工和整机服役性能的提高提供相关参考。论文的主要内容如下:(1)基于人工神经网络(artificialneural n
植被覆盖度(FVC)是刻画地表植被覆盖的重要参数,也是重要的生态气候参数,并且影响地气间的水分和能量交换,是陆面模式的重要输入参量之一。NDVI(归一化植被指数)作为估算植被覆盖度的一种常用数据源,由于大气条件、地形、传感器退化等多种因素的影响,多源数据存在时空不一致、可比性差等问题,影响数据的综合应用。为了获得更高精度的模拟结果,研究提出了基于非监督分类的局部核回归方法,对多源NDVI产品进行归
学位
随着人工智能和深度学习的发展,人机交互领域越来越注重情感表达,而语音作为表达情感最直接的方式,是实现自然人机交互的重要前提。如何让计算机自动识别人类情感和如何利用深度学习自动提取有效表征语音情感的关键特征是如今研究的热点。本文结合目前流行的深度学习网络构建语音信号特征提取和情感识别的模型,重点寻找有效表征说话者情绪的高级情感特征和模拟人类注意力机制去识别情感。主要工作如下:(1)针对语音情感识别任
伴随着工业化发展进程,光纤传感技术发展迅猛,成为众多领域研究的热点。光纤法布里-珀罗传感器具有体积小、精度高和抗干扰强等优势,在众多领域得到广泛的应用。而在光纤法珀传感系统中,解调系统直接影响光纤法珀传感器的测量精度,因此对解调技术的研究具有重要意义。本文以短腔干涉型光纤法珀压力传感器为基础,对解调方法进行研究,并设计了基于LabVIEW的传感器解调系统。本文的具体内容如下:设计了一种基于石墨烯的
MEMS压阻式压力传感器是在气象探测和车联网等领域有着重要应用的前向通道接口。传统硅基压力传感器普遍具有低灵敏度、温度漂移和时间漂移等半导体器件固有的属性。本文提出的基于硅铝异质结构的MEMS压力传感器及带有恒温控制和自校正功能的配套测量系统可以一定程度上解决这些问题。首先,理论分析了硅铝异质结构的压阻放大效应,将掺杂硅压阻条宽度优化设计为20μm,采用SOI硅片为原料设计了一种带有两对应力敏感和
随着立体成像技术的日益流行,3D高清影像产业不断发展,人们对于图像清晰度及视觉效果的要求越来越高。但是在3D图像的获取、传输、恢复和存储的过程中,会引入不同类型和程度的失真,从而造成立体图像质量下降,给人们理解和利用图像信息带来影响。因此立体图像质量评价的研究变得越来越重要,立体图像质量评价也是评价立体成像系统性能的一种有效方法。与2D图像相比,3D图像的每个视图不仅遭受2D图像会产生的单目失真,
热带气旋(Tropical Cyclone,TC)是发生在热带亚热带地区洋面上的一种暖心气旋式涡旋,是一种强大而深厚的热带灾害性天气系统。热带气旋强度被定义为热带气旋近中心附近最大持续风,准确估算热带气旋强度是热带气旋预报和灾害预警的关键。德沃夏克技术(Dvorak)被广泛应用于热带气旋定强,深度学习在热带气旋强度估计也表现出了与Dvorak相当的水平。除了Dvorak技术及改进版本仍然存在热带气