基于时空特征匹配的半监督视频目标分割研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:storm369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展与数据交互的变革,给人们生活带来便利的同时也导致了大量的数据冗余。作为一种视频自动化处理技术,视频目标分割能够从海量的冗余数据中快速准确地提取人们感兴趣的信息,因此被广泛应用于自动驾驶、动作识别、视频理解等领域。其中,半监督视频目标分割仅需给定第一帧目标掩膜,可自动地对后续视频帧进行分割,是目前主流的研究方向。对于分割精度、分割速度和鲁棒性三个需求,现阶段的视频目标分割算法通常无法同时达到最优,需有所取舍以寻求一个平衡。同时,待分割视频本身也存在目标表观变化剧烈,相似目标混淆,目标遮挡和消失等难点,进一步增大了分割难度。针对上述不足和难点,论文开展了面向不同场景需求的视频目标分割研究,主要内容和创新点如下:以满足典型应用场景实时性需求的前提下有效提升分割精度为目标,通过高效率的时序建模,提出了基于多重注意力引导的视频目标分割算法。该算法从特征匹配和特征融合两方面进行对应模块的设计。对于特征匹配,基于注意力机制设计了联合注意力引导模块,从两个不同层次引导网络关注感兴趣的目标区域,增加目标前景的显著性。对于特征融合,基于时序连贯性设计了多维度时空特征融合模块,将高低维度上不同时刻的特征进行高效率地融合,进一步细化分割细节。该算法满足典型应用场景实时性需求下可实现最佳的分割精度,同时在占据大多数的常规场景下,可实现具有竞争力的目标分割效果,适用于对速度要求高、精度要求次之的应用场景。以降低遮挡和消失场景引起的分割误差为目标,提出了基于自适应特征匹配的视频目标分割算法。基于目标变化区域呈现规律,设计了自适应特征调整策略,以标注帧信息作为初始参考特征,对变化区域进行检测并分别对动态和静态特征区域执行不同特征操作,以适应遮挡和消失场景下目标特征剧烈变化过程,时刻保持高质量的参考特征用于匹配。基于目标位置和特征一致性,设计了位置约束和目标关联模块,强调目标位置信息和全局关联信息,进一步引导模型进行精确地分割。该算法在目标遮挡和消失场景下可实现当前极具竞争力的分割效果,适用于目标遮挡和消失频繁的应用场景。
其他文献
负重行走时的额外载荷会改变行走步态,使人体代谢消耗增加,甚至产生关节和肌肉损伤。为拓展人体负重运动能力并降低肢体骨骼损伤,开发降低行走代谢消耗的悬浮背包系统已成为可穿戴机器人领域的一个重要研究方向。尽管悬浮背包系统已得到广泛研究并已涌现出大量研究成果,但仍然面临诸多挑战。如大负荷负重行走时肩部负载力高,被动式悬浮背包难以实现最优的代谢消耗目标等。针对这些挑战性问题,本文设计了一种可变参数的负载转移
学位
手在一系列基本的日常活动中至关重要,妨碍手功能的神经系统疾病或意外截肢会显著影响生活质量。可穿戴手势识别接口有望恢复和辅助手部功能,增强人与人之间的沟通,是人机交互、康复医疗、假肢控制、手语识别等领域的重要研究方向。设计分类能力强、学习快的模式识别算法是手势识别接口应用和产业化的关键;鲁棒性强、信噪比高的高质量信源是手势识别质量的保障,二者同时也是该领域面临的重要挑战。针对上述挑战,本文对于气压肌
学位
利用GmAPD(Geiger Mode Avalanche Photo Diode)阵列激光雷达探测器对远距离建筑物目标进行三维成像并识别在机器视觉以及武器制导等方面具有重要研究意义。但目前GmAPD阵列激光雷达探测器存在数据获取困难、数据噪声强以及目标三维特征描述困难等问题。本文围绕上述问题,研究了GmAPD阵列激光雷达探测器模型仿真算法以及远距离建筑物三维目标识别和追踪算法。论文主要研究如下:
学位
随着人工智能技术的发展,卷积神经网络相比于传统算法,在图像分类、目标检测、语音识别等领域性能上取得了大幅提升,然而庞大的参数量和计算量使得卷积神经网络在资源有限的嵌入式场景中的应用受限。本文提出了可配置的卷积神经网络专用硬件电路,作为面向嵌入式图像处理场景的图像协处理器(Image Process Coprocessing Unit,IPCU)芯片的重要部件,可在资源受限条件下实现卷积神经网络实时
学位
无人飞行器因低成本、高机动性的优势,在制空权的争夺战中扮演着重要角色。防空体系的快速发展和完善给无人飞行器的生存带来巨大挑战,因此具有高突防能力的隐形化无人飞行器成为近些年研究的热点。以降低无人飞行器的雷达散射截面(RCS)为目的的材料隐身和外形隐身是常用的隐身技术。但是无人飞行器的结构复杂,隐身技术也无法完全消除散射源,无人飞行器仍然存在生存隐患。航迹规划是提高无人飞行器突防能力的重要一环,通过
学位
时空域人-物交互行为检测是指在无剪辑视频中,定位时域发生交互行为的起止时间,检测空域相关人-物对的位置及类别,并生成时空管道。对以人为中心的场景理解具有重要意义。然而,受制于复杂的空间交互关系和冗余的时序背景信息,难以直接从视频中检测交互起止时间和人物关系。本文率先尝试将时空域任务解耦为空域检测任务和时序定位任务,前者聚焦于提升人-物交互行为对在复杂图像中的建模性能,后者聚焦于精确定位具有交互行为
学位
红外弱小目标检测在军事和国防领域具有举足轻重的地位,广泛应用于精准制导、预警系统以及武器装备中。由于探测器离目标空间位置远,成像环境复杂多变,导致目标呈现点状或斑状,缺乏纹理、颜色等特征,给红外弱小目标检测带来较大困难。现有算法大多为单帧检测,没有充分利用帧间的时序信息,场景鲁棒性和检测精度不高,而现有多帧检测算法速度有待提升。此外,检测结果中通常存在较多虚警,给实际应用中后续跟踪任务带来干扰。为
学位
近年来随着无人机广泛应用,基于无人机航拍图像的车辆检测算法在智慧城市、军事侦察等众多领域都有广阔的应用前景。现有深度学习方法大多基于可见光航拍图像,但囿于成像方法的局限性,无法在弱光条件下准确检测,而红外图像可与之形成信息互补,二者可在全天时提供充足的目标信息。本文分别从构建双谱段航拍数据集、单谱段车辆检测算法、双谱段融合车辆检测,引入旋转目标检测四个方面展开研究,解决现有双谱段数据集不足,无人机
学位
目标检测广泛用于自动驾驶、机器人视觉、视频监控以及航天航空等领域,随着深度学习的发展,基于卷积神经网络的目标检测算法逐渐成为主流,但卷积神经网络庞大的计算量和参数量使得其难以在边缘设备上得到应用。本文针对卷积神经网络在边缘设备上推理效率低、部署困难和实时性差的问题进行研究,从软硬协同优化的角度出发,设计基于FPGA的目标检测网络加速器。首先,将SkyNet作为基础网络,对其进行结构优化,得到适用于
学位
随着三维成像设备和人工智能技术的飞速发展,计算机视觉领域相关研究逐渐从二维拓展到三维。激光雷达获取的点云因其蕴含着丰富的空间信息,已成为三维环境感知中的重要数据源,并在机器人、自动驾驶、安全巡检等领域得到广泛应用。然而,由于点云具有数据量大、非结构化的特点,导致地面目标三维检测识别任务中仍存在亟待解决的问题,针对这些问题,本文对地面目标检测、分类及位姿估计方法进行深入研究,主要内容如下:(1)在目
学位