基于元学习的光流估计方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:ggy353566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光流不仅包含图像中每像素的运动信息,还携带丰富的三维结构信息,是计算机视觉领域的一项重要任务。光流估计在视频理解、动作识别、自动驾驶等领域得到广泛应用。与手工提取特征的方法相比,利用深度学习可以实现稠密光流估计且具有计算速度快的优势,受限于已有的光流数据库真值样本少、获取成本高等现实情况,现有的光流估计算法存在噪声敏感度高、泛化性能差的问题。针对这些问题,本文设计了基于元学习的光流估计算法,完成工作如下:本文首先设计了一个适用于光流任务的元训练方法-元迁移学习。该方法将元学习的训练方式与基础光流网络相结合,通过元学习高效的数据利用率,提升基础网络在小样本情况下的通用语义特征提取能力,进而提高其泛化能力,以适应多种应用场景。为了避免元学习常见的过拟合问题,设计的元迁移学习策略将网络的优化过程分为三个主要阶段。首先利用迁移学习获得初始化权重;其次在元训练阶段将基础网络分为编码器与解码器,只对解码器实施元学习的内循环操作,缓解解码器上采样过程中造成的信息丢失,外循环操作同时优化更新编码器与解码器;最后在元测试阶段利用对极几何约束以无监督的方式优化网络权重,以快速适应当前数据环境。在不改变基础网络结构,仅仅改变训练方式的情况下,该模型在MPI Sintel Final与KITTI2012数据集上的EPE指标分别为4.675与4.050,将基础网络的估计效果提高了40%,证明了所设计的元迁移学习方法的有效性。元迁移学习能够有效提升基础网络的光流估计性能,然而受限于该网络内在潜能,模型整体性能与目前先进的算法相比仍有一定差距。为进一步提高光流估计效果,本文设计了一种适合使用元学习方式训练的基础网络Meta Flow,该网络采用残差特征编码器提取每像素特征、用相关体积计算像素之间的视觉相似性、用光流预测器在元训练的指导下迭代优化光流估计值。实验结果表明Meta Flow在Sintel Final数据集上的EPE与最先进的算法相比下降14%,在KITTI2015中异常估计像素值的比例下降0.5个百分点,并且在KITTI2012与自制数据集上的测试结果,均证明了网络在大噪声、运动模糊等病态区域的准确性和鲁棒性,并且具有高效泛化能力。
其他文献
随着深度学习和大数据技术的快速发展,国网大力推进无人机巡检影像智能识别的应用。绝缘子和销钉是输电线路中的关键器件,但在高分辨率的图像中,现有的算法很难准确检测出复杂背景下较小的缺陷目标。本文根据绝缘子和销钉的各自特点,分别设计了对应的缺陷检测方案。针对绝缘子自爆识别,本文级联了目标检测算法和语义分割算法,在全局和局部两个阶段做缺陷诊断。首先,在原图中初步检测缺陷目标,同时定位出所有的绝缘子,把面积
学位
生物质快速热裂解是生物质转化利用的有效途径,但常因是非催化过程,裂解温度高导致生物油成分复杂难控。以ZnCl2为催化剂,研究了木质素、纤维素、玉米芯和松木粉的热解过程,旨在探索原位催化对快速热裂解的强化作用。通过热重曲线拟合,获得了热裂解的活化能;通过快速热裂解实验,研究了催化作用下热解油组成变化。结果表明,ZnCl2催化可显著降低生物质裂解温度,简化生物油组成。在350℃快速热裂解松木粉获得了4
期刊
显著性目标检测任务的目的是在图像中勾勒出人类视觉最关心的部分,用于后续的算法或是减少图像处理的成本。某些应用环境中光照不足,可见光数据通常会失去大部分性能,而热成像数据可以弥补这一部分的信息损失,提高检测性能。本文针对低光照或是光照不稳定的情况下的显著性检测任务,对光照判别、多源数据融合以及显著性检测展开了研究。具体工作如下:首先基于光照判别数据集,训练光照判别模型。将多源显著性检测数据集输入光照
学位
在实际环境中,语音经常受到噪声的干扰,影响语音质量。通常采用语音增强技术滤除语音信号中的噪声污染,提高语音信号的质量。其中麦克风阵列语音增强算法不仅可以使用语音信号自身的时频域信息,还可以使用各信号间的空域信息,空间分辨率较高,抗干扰能力较强,能够弥补单麦克风对噪声抑制不足的缺点,能够获得更好的语音增强效果,但其增强语音中仍存在残留噪声。因此本文提出一种基于噪声估计的麦克风阵列语音增强系统,主要结
学位
近年来,深度学习技术在计算机视觉、语音识别、自然语言处理等多个领域崭露头角并取得了巨大成功。该技术主要基于神经网络模型,采用“端对端”的特征学习方法,通过多层处理找到数据中隐藏的非线性特征,进而能够从大量训练集中自动学习以掌握全局特征。然而,基于神经网络模型的深度学习技术目前还存在计算复杂度大和表达能力有限等问题。针对上述问题,本文从轻量化卷积算子和自适应激活函数这两个角度进行了研究:第一,提出了
学位
屏摄图像上的摩尔纹是指在拍摄数字显示设备时,数码相机的感光原件和显示设备的显示元件之间发生混叠而产生的干扰条纹。这种干扰条纹的尺寸、形状和颜色会根据拍摄角度和不同相机参数设置而发生变化,这使得很难使用人为设计的先验信息来对摩尔纹进行去除。传统的有监督的深度学习方法需要使用大量严格成对的带摩尔纹图像与干净图像来训练网络,这需要很大的人力物力财力支持。并且拍摄时显示设备和拍摄设备之间的不同夹角以及拍摄
学位
在社会信息化大发展的时代,图像处理技术已逐渐成为科学研究的重要支撑,正不断渗透在各个领域中。光学图像滤波处理正得到广泛关注,其包括医学诊疗图像处理方向的视网膜光学相干层析(Optical Coherence Tomography,OCT)以及电子散斑干涉(Electronic Speckle Pattern Interferometry,ESPI)两个方面。OCT和ESPI等测量技术所采集到的图像
学位
通过语言指导机器人完成通用性任务是人工智能领域的重要研究课题之一。近年来,越来越多的学者试图将计算机视觉与自然语言处理领域的相关技术相结合来实现这一目标,视觉语言导航(Vision-and-Language Navigation,VLN)是其中的核心问题。本课题源自于科研“手势-眼动联合操控小型无人系统XX应用研究”项目,该项目主要研究未来智能人机交互、人机协同的方式方法,本文针对其中的无人系统智
学位
随着分布式能源并网调控、新能源电动汽车充放电等新型数字化电力业务的大量兴起,电力系统承载的业务数据网正加速趋于多样化、广域化、智能化。为了保证承载多主体大业务的电力系统安全稳定运行,高性能高可靠的电力通信网络成为关键性因素。对于点多面广的分布式发电侧和低压配电网侧来说,尚未实现完全的电力物联信息互联互通,电力通信“最后一公里”问题仍然存在。近年来无线移动通信技术迅猛发展,以5G为代表的先进信息通信
学位
语音增强旨在利用音频信号处理技术及算法提高失真语音信号的可懂度和听觉感知质量,使被噪声干扰的语音信号仍能有效传递信息。随着麦克风设备的低成本化和人工智能技术的发展,基于深度学习的麦克风阵列波束形成语音增强算法通过监督学习的策略,解决了传统波束形成算法所需先验知识多以及在低信噪比条件下算法鲁棒性差的问题。然而,现有的算法为提升性能,一方面不断改进网络结构,导致模型往往过于复杂;另一方面利用学习的方法
学位