基于图实例匹配和孪生注意力的自监督视频分割算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:itcrasher9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,多媒体信息的传播载体和交互方式都发生了巨大的变化。视频信息占所有信息的比重也越来越大。对视频的处理需求在整个计算机视觉任务中的比重也越来越大。随着人工智能技术的发展,大量图片和视频数据被基于深度学习的方法处理,并取得了优异的效果。视频实例分割任务是一个近年来新兴的视觉理解任务,它结合了以往的视频目标检测、视频目标分割和视频目标跟踪等计算机视觉任务,旨在视频帧中检测出目标以后,再进行像素级的分类,属于计算机视觉中最复杂的任务之一。本论文针对基于图神经网络的视频目标分割开展了深入研究,主要包括下面三个工作:1.提出了一种使用图神经网络代替相似度矩阵来进行视频实例的跟踪匹配的网络GIMNet。该方法基于MaskTrack R-CNN进行优化和改进,使用消息传递网络对上下帧的各个实例进行匹配。代替了 MaskTrack R-CNN的跟踪分支中使用当前帧的实例与一段时间距离内的多个兴趣区域进行相似度匹配来进行实例跟踪的方法。GIMNet在视频实例分割数据集Youtube VIS-2019上的精度优于MaskTrack R-CNN。实验结果验证了提出方法的有效性。2.提出了一种用于视频序列特征提取的自监督预训练方法。该方法针对视频数据的特征提取时,模型无法对更深层次的信息进行抽取的问题。该方法使用了构造三元组数据集的方法,并使用视频分类数据集本身进行训练。该方法不使用数据集的标签,使用三元组损失作为损失函数,对视频进行自监督学习的预训练。通过该自监督学习预训练方法得到的模型,会比直接训练得到的模型对视频数据有更深层次信息挖掘。随后,得到的预训练权重再进行下游的视频实例分割任务的训练。通过在视频实例分割数据集Youtube VIS-2019上的实验结果得出,该自监督学习方法对MaskTrack R-CNN和GIMNet都带来了精度和召回率的提升。3.提出了一种孪生注意力机制模块,该模块针对先检测后跟踪的任务范式对视频数据的前后帧时序信息提取性能不足的问题。提出了一种非局部注意力模块,可以结合空间注意力和时间注意力。该方法是在模型的特征提取网络后加入孪生注意力模块,融合当前帧的特征和前一帧的特征的信息,最终得到经过注意力机制的特征图并用于后面的ROI提取步骤。本研究还对孪生注意力的结构进行了一系列的改进和实验。在Youtube VIS-2019数据集上的实验结果证明,提出的孪生注意力的模块,使GIMNet的性能有了较高的提升。
其他文献
《红楼梦》整本书阅读教学,不仅要贯彻新课标精神,还应汲取已有的经典阅读教学的经验。作为复杂大文本,《红楼梦》整本书阅读对高阶思维与深度学习提出了现实的要求。培养学生阅读《红楼梦》的兴趣,教授相应的阅读方法,只有在真实的阅读中才能达成。《红楼梦》整本书阅读教学应立足于宏观与总体的把握,关注通识性与共识性的理解,重在基础,重在常识。在教学上,要尊重整本书阅读的规律,尊重《红楼梦》的文本个性,在满足公共
期刊
高光谱图像分类是遥感图像处理领域中具有挑战性的课题之一,能有效实现地物的精细识别。然而,有限的训练样本极大制约了高光谱图像的分类性能。生成对抗网络(Generative Adversarial Networks,GANs)因其强大的生成能力而闻名,它通过生成器和判别器的对抗优化,迫使生成器学习真实样本的分布,从而获得高质量的生成样本。同时,判别器也在不断的判别过程中提升了分类能力。因此,GAN被应
学位
图像配准是将不同时间、不同传感器(成像设备)或不同条件下(气候、照度、摄像位置和角度等)获取的两幅或多幅图像进行匹配、叠加的过程,它已经被广泛地应用于遥感数据分析、计算机视觉、图像处理等领域,该任务对3D重建、宽基线立体匹配、视觉定位、图像检索和变化检测等很多计算机视觉任务都非常重要。传统方法如SIFT、SURF等使用手工设计的特征进行匹配,对旋转、尺度、亮度等变化具有不变性,取得较好的匹配性能,
学位
<正>川办发[2020]52号各市(州)人民政府,省政府各部门、各直属机构,有关单位:经省政府同意,现将《四川省培育发展新消费三年行动方案(2020—2022年)》印发给你们,请结合实际认真贯彻落实。2020年8月4日四川省培育发展新消费三年行动方案(2020—2022年)为有效应对新冠肺炎疫情对消费的影响,顺应消费发展新趋势,培育壮大新消费,进一步发挥消费对经济增长的基础性作用,结合我省实际制定
期刊
强电磁脉冲一般指由核爆炸或高功率微波武器产生的电磁波。强电磁脉冲作用于电子系统中裸露的导线时会耦合瞬态电流,进而对电子设备的敏感的电子器件造成严重的电磁干扰或毁伤。对设备进行强电磁防护设计需要以场线耦合响应电流的干扰规律作为依据,因此有必要对各种类型的线缆建立场线耦合模型来计算负载的响应电流。近年来,在军事领域重视下电磁脉冲技术得到飞速发展,强电磁脉冲的种类越来越多,频谱范围不断增大,对于新兴的超
学位
<正>“宝玉挨打”是《红楼梦》重要事件,是三十三回之前大大小小矛盾积聚之后的集中爆发,体现了这部伟大小说高超的艺术水平。曹雪芹采用戏剧式手法,巧妙地将挨打前的重重冲突一步步激化升级,引发挨打的风雨大作,再到打后的余波不断,在整体紧张的氛围、同一的时间地点里,让各色人物悉数上场,言其言,行其行。忙而有节,又娓娓道来,呈现生活的截面,透出无限的意蕴。
期刊
以《乡土中国》《红楼梦》整本书阅读教学为例,阐释了教师运用项目学习方式,通过设计合理的项目任务、整合教学资源、创设学习情境、开展综合性学习,完成整本书阅读教学的尝试。
期刊
《红楼梦》整本书阅读教学实践中,经常面临阅读时间不足、阅读方法匮乏、教学评价单一的问题。基于智慧课堂开展《红楼梦》整本书阅读教学,通过微课、阅读平台、作业平台、评价空间等,发挥阅读可视化、资源丰富、教学精准、交互方便的优势,实现智慧课堂对整本书阅读教学的促进作用。
期刊
随着超低空突防技术的发展,掠海无人机已被广泛地用于军事领域,并成为现代海洋战争中的一种可靠攻击武器。为提高无人机在作战中的生存能力,对其隐身技术进行深入的探索就显得尤为重要。且随着海洋微波遥感技术、海面监测技术、海上目标检测等技术的不断深入,海面和掠海目标的复合电磁散射特性分析日益受到重视。针对上述问题,本文首先对无人机的电磁散射特性进行了研究,并结合二维粗糙海面分析其与掠海无人机的复合电磁散射特
学位
传统的基于模板匹配及统计的人脸识别技术在复杂的环境下,存在误检率高、召回率低的问题,而基于深度学习的人脸识别技术则能够提高检测率,尤其是面对多人脸、多角度的场景时性能大大优于传统方法。但是,深度学习所使用的神经网络模型包含数百万个神经元及神经元间的连接,推理过程达到每秒数亿次操作,需要算力强大的硬件进行支撑,因此在算力和成本受限制的条件下,纯软件的大规模人脸识别模型难以在移动端上满足自动驾驶、视频
学位