多目标自动视频分割方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:txj8u5yhb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动视频分割任务近年来扮演着越来越重要的角色,该任务不仅被应用于视频会议、自动驾驶等针对特定类别目标的场景,还广泛被应用于包含世界万物的视频场景。然而,由于视频场景复杂且物体在时序上外观变化剧烈,多目标自动视频分割任务在实例分割精度和时间连续性方面仍面临着巨大的挑战。现阶段多目标自动视频分割的研究成果共有的问题包括:相似物体区分困难以及复杂场景物体丢失等等。针对这些问题,本文的研究工作基于时空域的特征融合架构,专注于视频目标在语义级别上的分割改进。首先,本文提出一种高效的端到端多目标自动视频分割模型——灵活学习的时间-空间二分支定位修正网络。模型将SOLOv2的质心定位思想作为出发点,以更准确地获取独立物体的质心位置为目标,利用视频序列时空域信息可交互融合的特性,分别完成视频的时域特征匹配和自身特征挖掘。仅用视频帧作为输入,该二分支网络不仅可以专注于单帧外观信息和帧之间运动信息两者的独立性质的学习,还为网络后续的时空融合、类别预测以及分割预测提供更灵活的输入基础。在时空融合后,网络会加入语义优化模块,来捕捉并修正特征在时空交互中出现的错误积累,解决语义信息重叠的问题,从而更准确地定位独立目标物体,生成更精确的目标分割掩码。然后,本文使用注意力变换机制Transformer结构代替卷积层,并从外部输入全局向量来学习视频帧的语义提取方式,在学习的过程中,全局向量结合图像特征不断提升时空二分支网络的自-互注意力,该基于Transformer的时空二分支融合网络模型验证了Transformer结构对被遮挡物体分割的健壮性。与此同时,本文还对比了两种时空二分支网络在解决多目标自动视频分割任务中的优缺点。除此之外,本文在模型中另外添加了识别向量(ID向量)预测及相应监督来完善视频分割模型的时域连续性需求。本文通过大量的实验对比,验证了所提出的两种方法的有效性,相比现有的同领域研究方法,本文的方法在视频分割验证指标J和F上都达到了较高的精度,同时运行速度达到了实时。
其他文献
语音关键词识别是用语音信号处理方法,从用户话音流中检测出若干预定义的关键词。目前,语音关键词识别研究已取得重要进展,涌现出一些相关软硬件产品,并在人机交互、手机语音助手、智能音箱、智能耳机、智能家居等领域得到广泛应用。特别是近年来,随着深度学习理论的兴起,基于神经网络的语音关键词识别技术取得新进展,但由于其参数量大、算力要求高,难以在终端设备上应用。本文考虑到低参数量和低计算复杂度的应用需求,应用
学位
视觉目标跟踪任务是计算机视觉领域的基本任务之一,在近年来火热的人工智能研究的各个方面都有其身影。单目标跟踪任务就是在视频序列第一帧中给定一个要跟踪的目标及其边界框,要求跟踪器在后续帧中找到该目标。主流的单目标跟踪方法都是通过互相关计算来实现特征融合。互相关运算是一个局部线性匹配过程,只考虑了模板与搜索区域相似度,融合方式简单,容易导致语义信息丢失,并且在某些特定场景下不支持互相关计算。此外,现有的
学位
图像修复任务旨在利用计算机为图片的缺损区域生成自然、合理的填补内容。而把图像修复拓展到3D场景,则衍生出了3D图像修复任务。单一的图片被投影到3D空间后,由于前背景之间存在遮挡关系,前景边缘附近会有缺失内容,因而难以还原完整的3D场景。3D图像修复任务就是通过填补部分缺失的3D场景信息还原出2个视角之间的转换效果,这种多个视角的集合就是3D图像,3D图像渲染为视频后会有逼真的视觉效果。2D图像修复
学位
目的 探讨不同检验方法检测生殖道沙眼衣原体感染结果准确率的临床应用。方法 对106例疑似生殖道沙眼衣原体感染的患者尿道、宫颈拭子和尿液分别用酶联免疫吸附试验(ELISA)、抗原快速检测试验(免疫层析试验)和生殖道沙眼衣原体核酸检测(PCR),比较不同检验方法诊断阳性率、灵敏度和特异度。结果 以生殖道沙眼衣原体核酸检测为“诊断标准”,其阳性率为97.17%(103/106),酶联免疫吸附试验阳性率为
期刊
随着科学技术的快速发展,无线通信技术在智能制造、车联网、远程医疗、智慧城市等领域得到了广泛的应用。但在某些特定的工作场景下,比如封闭金属容器产生的静电屏蔽限制了电磁波的传输、强电磁干扰场合下无法正常使用无线电磁波通信。本文提出采用超声波代替电磁波作为信息传输的载体,利用方向性好、穿透力强等优点,可以克服静电屏蔽以及强电磁干扰对电磁波无线通信的影响,同时还不占用频谱资源。本文设计了一种基于超声波的低
学位
无人机由于其高机动性、易部署、价格相对较低和良好的视距(Line of Sight,Lo S)信道等优势引起了广泛关注。对于将物联网场景由2D转化到3D,无人机起到了关键性作用。针对无人机辅助物联网场景,多数学者们研究无人机作为中继使用时,考虑的地面用户为单用户,结合子载波的场景相对较少。在研究无人机作为基站(Base Station,BS)使用时,对无人机能量效率(Energy Efficien
学位
视觉感知一直是人类接触外部世界的主要感知方式,其中图像和视频作为视觉信息的主要载体成为了人类探索外部世界的基础。运用基于深度学习的分割算法对图像和视频中的主要前景对象进行分割,在广泛的实际应用(例如,视频监控、自动驾驶等)中发挥着重要的作用。尽管基于深度学习的全卷积神经网络已经在密集预测任务上取得了阶段性进展,但是依旧存在着诸多潜在的问题。由于图像中复杂的场景(例如,易混淆的对象或前背景低对比度)
学位
区域分割任务旨在对场景中特定的区域进行识别,属于计算机视觉领域中的分支任务,在自动驾驶、地图元素检测及视频理解等方面被广泛应用。相比于传统方法,基于深度学习的区域分割方法准确率更高。但仅利用高阶语义特征进行区域分割的方法受限于目标区域的尺度,常出现分割结果不完整、精度低的情况。针对具体应用场景,利用先验知识对高阶语义特征进行增强和补充成为改善分割结果的重要途径。本文的第一部分针对遥感影像场景下道路
学位
由于获取及存储信息的技术手段飞速发展,观测数据总是表现出高维度大尺寸的特性,大规模数据的分析和处理成为当今信息处理技术的核心和关键。相比于传统的基于矩阵的处理方法,张量(即多维数组)更加适合这种高维度数据的表示和分析,它不仅能够直观描述高阶数据之间的多线性结构,还具有模型精简、可唯一辨识性强等良好特性,因此近年来被广泛用于多维数据的表示和处理中。然而,传统的张量分解算法在处理大规模数据时会面临内存
学位
手部三维模型重建的目标是在给定的图像中恢复整个手部的姿态及表面形状信息。由于该任务可以广泛应用于虚拟/增强现实、机器人抓取、智能家居等众多领域,因此在近年来逐渐成为了计算机视觉领域的研究热点之一。然而,考虑到人手自由度高、自遮挡和自相似严重的问题,许多方案依赖手部三维真值进行全/强监督训练并取得了很好的成果,但也由于三维标注很难获取而限制了方案的实用性。同时,现有的方法更关注网络在某个数据集上的性
学位