基于时空记忆的半监督视频目标分割算法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:whitetooth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频目标分割是机器视觉中最基本的任务之一,在实际应用中发挥着重要作用。根据是否有人为的参与,可以分为无监督视频目标分割和半监督视频目标分割。本工作旨在研究半监督场景下的视频目标分割任务,即根据人为标注的视频首帧的目标掩码注释,来完成后续帧中的目标掩码预测。当前,基于时空记忆的方法由于其优异的性能,受到了广泛欢迎。其基本思想是通过构建一个外部记忆库来记忆历史帧中目标对象的信息,然后将查询帧中的像素与记忆库中的目标对象信息进行相似度匹配,进而选择有利于查询帧目标对象建模的信息完成预测。这类方法虽然可以有效地处理遮挡、形变等问题,但仍存在以下两个问题:1)无法在精度和效率间达到平衡,即短时空记忆效率高,但性能有限;长时空记忆性能好,但效率低。2)无法处理同类语义物体带来的干扰,容易出现错误预测。为了解决上述问题,本工作进行了深入研究,主要贡献可以概括为:(1)针对无法平衡算法精度与效率问题,本工作提出了一种时空压缩的半监督视频目标分割算法,通过降低记忆中的时空冗余,来提高算法效率。在时间上,该算法自适应地选择有着明显变化的视频帧用于记忆更新。在空间上,该算法不再存储视频帧中所有像素信息,而是只存储与记忆中已有像素相似度较低的像素信息。此外,该算法通过丢弃被较少使用的旧像素信息以进一步降低空间冗余。最后,该算法提出了一种更为高效的记忆读取机制,以更低的内存占用和计算成本来达到同等的读取效果。本工作在多个基准数据集上对该算法进行了实验,实验结果证明了该算法在降低时空冗余,提高算法效率方面的有效性。最后,大量的消融实验也表明了该算法各组成部分所起到的作用。(2)针对无法处理同类语义物体带来的干扰问题,本工作提出了一种时空场景学习的半监督视频目标分割算法,通过利用周围场景信息来避免干扰物体,消除目标候选区域,避免错误分割。具体地,该算法将周围场景信息编码成密集的知识向量,并以视频序列的形式传播,然后与目标外观模型的输出相结合,共同指导查询帧的目标对象建模。此外,该算法引入了一种知识更新策略来更新知识向量,该策略可以标记新进入场景的干扰物或纠正被错误传播的知识。本工作在多个基准数据集上对该算法进行了实验,结果表明,该算法可以捕获丰富的场景信息,并且这些信息可以与目标外观模型的输出形成互补。最后,大量的消融实验也表明了该算法各组成部分所起到的作用。
其他文献
传统机器学习或模式识别问题通常假设:1)训练数据和测试数据服从相同分布;2)训练数据充足且有标注。这样的假设过于理想且在实际问题中很难成立,为了克服数据分布不同且无标记或者少标记的问题,域适应作为新的机器学习范式被提出。截至目前,已有大量域适应方法被提出,但域适应的场景丰富多变且域间域内关系错综复杂,现有方法并不能很好地根据域适应的场景设置挖掘其特有的先验知识、领域关系等。为此,本文针对无监督域适
学位
隐写术和隐写分析是当前信息隐藏领域中重要研究热点。隐写术的滥用造成不少的安全隐患,如:商业犯罪分子利用隐写技术完成隐蔽通信来实现信息盗取。图像隐写术是一种通过修改数字图像的复杂区域来嵌入秘密信息以达到隐蔽通信目的的技术,但由于隐写术的特殊性导致其可能被用于非法领域,因此研究隐写分析技术对维护信息安全具备重要的研究意义和实用价值。隐写分析技术按照其技术基础分为基于人工特征的隐写分析方法和深度隐写分析
学位
分类任务是机器学习中一项重要的分支,分类算法利用样本中的特征信息将实例进行类别的划分。但是,由于特征数量的急剧增长,“维度灾难”问题严重影响了分类算法的性能。特征选择技术通过对数据集中不相关或冗余的特征进行剔除,能够很好地解决“维度灾难”问题。特征选择可以被视为组合优化问题,即从特征全集中挑选出合适的特征组合形成特征子集。遗传算法作为进化算法中最具代表性的经典算法之一,全局搜索能力突出,特别是针对
学位
在过去的20年中,核方法已成功用于解决许多机器学习和模式识别问题。众所周知,核方法的性能高度依赖于核参数的选择。传统的模型选择在交叉验证的框架下基于格子、随机或者手动搜索实现。然而这些方法都是在离散的参数空间中选择有限个候选核参数,然后多次训练模型,这需要很高的计算成本。尽管研究者们已经提出了非线性解路径算法用于在连续的参数空间中选取核参数,但这些方法仍不能保证搜索到整个参数空间内最优的核参数值。
学位
深度伪造是利用深度学习强大的拟合能力来生成逼真人脸的一种技术。目前已经有着大量使用此类算法生成的恶意视频在网络中传播,对个人隐私和社会稳定造成严重威胁。也因此,深度伪造检测成为当前亟待解决的问题。目前伪造人脸检测的相关研究已经能够在各个数据集上表现出足够高的精度,但在泛化性仍有不足。不同的伪造算法所留下的痕迹各不相同,未知数据分布更是增加了检测难度。现有很多方法都是针对于某种特定伪造算法所产生的特
学位
作为数字图像处理与计算机视觉中的关键任务,图像分割是对图像中像素点进行分类,为后续图像信息精细化理解及分析提供支撑。图像分割现已广泛应用于工业、遥感、医学、生物识别等领域,一直是学者们关注的热点。目前,基于有限混合模型的方法凭借其在图像分割任务中展现出的良好性能,成为该领域的流行方法之一。然而,模型参数的大量引入往往导致模型难以选择,同时增加了计算复杂度。此外,当前该方法主要依赖独立像素,并未充分
学位
近年来,随着深度学习技术和操作简单的图像编辑工具的快速发展,人们可以容易的对人脸图像进行篡改甚至生成新的人脸图像。这些假脸图像十分逼真,人们很难发现破绽。一旦这些虚假的人脸图像在互联网上被广泛的传播、复制、伪造,那么将对日常隐私以及社会安全产生巨大的威胁。目前,研究者已提出很多深度伪造人脸检测算法。但是,这些算法在应用到现实场景中会面临如下两个问题:(1)图像传播过程中可能会经过压缩、模糊等后处理
学位
现代互联网通信技术的发展和多媒体技术的普及,为图像、视频、音频等多媒体信息的共享与存储带来了便利。但同时带来了多媒体信息版权盗用的问题,造成了严重的信息安全隐患。数字水印技术以不可见的方式将版权信息嵌入多媒体信息中,能够有效实现版权保护和侵权行为追溯。本文针对使用较为广泛的静态图像载体,优化其在鲁棒性、不可感知性方面的综合性能,主要工作及创新点如下:1.针对现有方法难以抵御几何去同步攻击的问题,提
学位
目标检测是计算机视觉领域中最基础且最具挑战性的任务之一,包含目标分类和定位。与此同时,目标检测作为图像理解和计算机视觉的基石,它为视频跟踪等任务提供了强有力的特征分类基础。最近,深度学习利用强大的分层特征提取和学习能力表现出更强的鲁棒性。尽管如此,现有方法在面对多尺寸目标检测和密集成群的小目标检测时仍无法取得较好的效果。为解决这些问题,本文旨在研究利用特征融合和重构的方法增强与丰富多阶段特征图中的
学位
隐写术是将敏感信息隐蔽地嵌入到图像等通信载体中,并进行公开传输的一种隐蔽通信技术,可以实现敏感数据“神不知鬼不觉”地秘密传输。同时,违法分子也会利用隐写术来从事非法犯罪的活动。因此,为了防止隐写技术被用来造成一些危害社会的信息安全事件,隐写分析技术受到国内外学者的广泛关注及深入研究。近年来,深度学习在图像隐写分析任务中表现出了优越的检测性能。然而,基于深度学习的图像隐写分析模型需要隐写算法对应的大
学位