用于视觉目标跟踪的孪生交叉目标感知网络研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:Y290107881
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标跟踪是计算机视觉领域一项基础性挑战任务,具有重要的学术价值与实用意义。在给定初始帧标注信息后,其任务不仅要在后续帧中对目标中心进行粗略定位,还需要进行精确的目标状态估计。近来,基于孪生架构的方法因其能在保持良好速度的同时取得较显著的性能,引起了目标跟踪领域的广泛关注。然而,孪生网络分支通常是独立的,缺乏信息交互,这限制了模型性能的进一步提升。为了增强孪生网络分支的协作能力,本文提出基于孪生架构的交叉感知网络模型——Siam Cross(Siamese Cross Object-Aware Network)。本文主要工作和贡献如下:(1)针对“孪生网络双分支协同缺位”的问题,本文基于孪生网络分支的协同互利原则,设计了全新的孪生交叉感知子网络(Siamese Cross-Aware Network,SCAN)。SCAN基于自注意力机制交叉融入双分支信源,允许孪生分支彼此全方位协同工作。这使得目标分支可有效利用搜索特征丰富的上下文语义信息,对目标产生更具有区分性的表示;搜索分支结合目标特征,也主动学习到了目标的本质信息。孪生分支提取的特征鲁棒性得到进一步提高。(2)针对“无锚框网络分支交互低效”的问题,本文基于无锚框网络分支的信息交互监督,提出了新型目标注意力交互网络(Obejct-Attention Interaction Network,OAIN)。无锚框算法将跟踪任务直接定义为对每个像素的分类和回归,网络分支特征可各自聚焦于目标的局部与全局空间信息。以上两种特征具有很好的潜在局部-全局互补性。OAIN构建了并行交叉注意力模块(Parallel Cross Attention Module,PCA)和自适应可形变交叉对齐模块(Adaptive Deformable Cross Align Module,ADCA),充分结合无锚框网络分支之间的局部-全局特征信息并进行高效交互,获得了更精确的跟踪结果。(3)针对“跨分支辅助定位特征失焦”的问题,本文构建的ADCA模块带有额外的自适应空间转换操作,使得回归特征聚焦于目标区域采样,缓解了特征对齐失焦导致的分类分支参考信源可靠性大幅度降低问题。ADCA模块也因此能更好地跨分支辅助分类分支进行目标中心定位,完善了无锚框网络的高效交互机制。(4)最后,本文在OTB2015、VOT2018/2019、GOT10K和La SOT五个具有挑战性的公开基准中对Siam Cross进行了详尽的实验评估,通过与当前先进的26个跟踪器,如Siam RPN++、ATOM及Di MP等,对比验证了Siam Cross方法的优越性。此外,本文还设计了多组定性对比实验和消融实验,实验结果表明,本文提出的创新工作均能有效提高模型的性能,证明了Siam Cross方法的有效性。
其他文献
<正>一、问题的提出目前,社会对高质量学前教育资源的需求日益迫切,幼儿师资的培养要求随之发生显著变化,直接影响着高等院校学前教育专业人才培养的走向。2018年《教育部关于实施卓越教师培养计划2.0的意见》提出贯通职前职后,创新机制模式,深化协同育人的指导方针,要求支持建设一批省级政府统筹,高等学校与中小学(幼儿园)“协同开展培养培训、
期刊
互联网用户数的急剧膨胀导致相关数据量激增,由此产生的信息过载问题持续影响着人们的生活。推荐算法可以帮助人们快速从海量信息中获取真正需要的内容,摆脱信息过载并节省信息筛选的成本。在为人们带来便利的同时,推荐算法自身也暴露出了诸多问题。目前推荐算法的改进工作大多以各类型上下文信息构建用户和项目之间的联系,再融入如矩阵分解、深度学习等多种技术,提升算法的预测精准度。针对目前推荐算法中存在的冷启动问题和预
学位
近年来随着人们的生活水平不断提高,人们承受的压力也逐渐增加甚至部分人由此导致了如睡眠质量变差等各种问题。有研究表明合适的音乐可以改善人的睡眠质量,但由于音乐种类众多使得寻找适合自己的音乐也成为一个难题,本文的目标是通过深度学习技术来实现睡眠音乐的自动生成,从而缓解这个难题。本文实现睡眠音乐生成的方法主要包括主旋律提取以及音乐生成两个方面的内容。其中存在许多难点:1)音乐数据不同于普通的序列数据,可
学位
最大团问题(Maximum Clique Problem,简称MCP)是一类NP难问题,有效求解它的精确算法大多数是基于分支定界(Branch-and-Bound,简称B&B)框架的,其中的上界策略对缩小解空间、提高算法效率起着重要作用。目前应用最广泛的是基于图着色的上界,但该上界与最优解之间常常存在一定的差距而导致解空间过大。此外它的时间复杂度总是大于O(n2),当图规模较大时它可能对算法效率产
学位
最近数十年,信息技术尤其是互联网领域相关技术的高速发展,催生出的数据在样本数量与维度上日益庞大。在高维数据中,样本数通常难以均匀覆盖高维空间,这将导致维度灾难,严重损害机器学习算法的性能。特征选择通过从原始特征中挑选部分特征,精简使用特征的数目,避免了样本数与维度严重不相称的情况,已成为数据挖掘领域中常用的预处理技术。近年来,基于进化计算技术的特征选择算法备受关注,这得益于它们优秀的全局搜索能力。
学位
传统的中小学地理教学经常使用地球仪作为辅助教学工具,虽然地球仪能直观的展示相关地理区域,但是由于地球仪本身的限制而无法承载过多的信息,而增强现实(Augmented Reality,AR)技术能够将虚拟信息叠加到现实场景上进行实时交互,将AR技术与地理教学相结合可以使教学内容更加丰富、生动、有趣,能够激发学生的学习兴趣。目标检测算法具有较强的识别物体的能力,将目标检测算法与AR技术相结合,可以提高
学位
随着互联网行业的发展,深度学习技术在各个研究领域得到了广泛的运用,特别是在计算机视觉相关领域。人脸表情识别属于学科交叉的领域范畴,它的研究可以让机器学习人类的情感,有助于提高人机交互的效率,这一技术可以推广到医疗、交通、教育等不同的日常情景。但表情识别的准确率容易受表情图像中光线、角度、细节等因素影响。因此,为进一步提升表情识别网络模型的性能,本文共分三个方面对表情识别深度网络进行改进,主要工作包
学位
人脸表情识别作为情感计算重要的组成部分,在公共安全、智慧交通和医疗康复等领域有着巨大的应用前景。在过去的几年里,数据驱动的深度神经网络虽然将人脸表情识别准确率提高到了新层次,但是仍面临以下两个关键性难点:(1)头部的偏转造成了面部遮挡和配准误差,导致识别准确率再向上提升变得异常困难,并且难以运用到实际场景中;(2)现有数据集中存在一些不确定性表情样本,这些样本造成提取出的特征有害。为了解决以上问题
学位
近年来,基于相空间重构(Phase-Space Reconstruction,PSR)的时间序列图像化方法因能描述时间序列的非线性信息等优点,已被用于提升时间序列分类(Time Series Classification,TSC)的性能。然而,这类方法因需要将高维相空间中的轨迹投影到二维平面,往往会导致信息丢失或造成虚假的信息,从而导致分类准确率的下降。本论文的研究目的便是分别在单变量时间序列(U
学位
近年来,随着社会信息化程度越来越高,互联网改变了人们的生活,成为了人们生产生活中不可缺少的一部分。但是,随着网络安全问题日益凸显,人们的隐私和数据安全不断受到威胁。数字身份作为互联网的基础设施,是网络安全中的重要一环。而传统的身份管理方式下存在用户隐私泄露、身份管理效率低、数据共享困难等问题。为了改进数字身份管理方式,保障网络数据安全和用户隐私安全,本文进行了以下研究:1)为了解决集中式数字身份管
学位