基于孪生网络的目标跟踪算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:a398215555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的迅速发展,包括图像、视频在内的视觉数据迅速增加,而这些海量的数据往往蕴含着大量有价值的信息,通过计算机视觉技术来分析这些信息可以让人类的生活更加便捷和安全。目标跟踪是计算机视觉领域中的经典任务之一,它旨在从任意一段视频中的一帧中指定一个物体,在后续的连续帧中推导出其位置。目标跟踪对于自动驾驶、安防系统等领域有着重大的应用价值。本文基于深度学习中的孪生网络对目标跟踪进行了深入研究,使得目标跟踪性能得到了三点提升:主干网络特征提取能力的提升、在有限训练资源下的跟踪能力的提升以及对目标的外观变化的适应能力的提升。主要工作以及相应的结论总结如下:
  1.提出了基于多阶段训练的孪生网络跟踪算法。针对主干网络特征提取能力的提升的问题,本文改进了网络结构设计和网络训练的思路使得网络提取的特征更加适用于目标跟踪。在目标跟踪中搭建孪生网络时,其设计往往需要考虑网络加深带来的边际效应问题,并且由于目标跟踪对实时性要求很高,需要平衡网络模型大小与精度之间的关系,因此我们利用长短时跟踪模块的设计探究了更优的结构。此外,我们提出了一种多阶段的训练方法,在训练过程中使用不同时间间隔的帧对来分别训练网络的长时跟踪模块和短时跟踪模块,使得网络的特征提取更适用于目标跟踪,从而设计出更适用于目标跟踪的网络结构。
  2.提出了基于动作选择机制的孪生网络目标跟踪算法。针对有限资源下提高跟踪能力的问题,本文提出了在孪生网络中嵌入步长可变的动作选择机制来高效、灵活地获取目标框。前一帧获取到的目标框利用动作选择机制选择一系列动作来获得当前帧的最优位置,在执行每一步前,先利用相似性度量判断是否需要更换步长,执行动作后,将动作集合过滤一遍以减小计算量,然后利用感兴趣区域池化来比较候选子区域的相似度,从而可以不依赖于大量训练数据推断出目标的准确位置。本文还与高斯采样、滑窗采样、回归等采样方式进行了比较,得出了动作选择机制的特点与差异,并在公开数据集上证明了本方法的优越性。
  3.提出了基于多粒度外观表示的孪生网络目标跟踪算法。针对目标跟踪过程中的目标外观变化的适应性问题,本文提出了一种可实时更新的目标跟踪算法,将生成式模型和判别式模型整合在一起来分别提取语义特征和外观特征。在跟踪过程中,保持鲁棒性较高的语义特征不变,只更新外观模型。本文通过嵌入卷积块注意力模块来提高语义特征的质量,并设计了一种通过颜色直方图获取目标的多粒度的外观特征的方法,来准确地描述目标的实时变化。通过保留目标的最近外观选择性地更新外观表示池。本文还提出了一种选择性遍历的方法自适应地融合模型,基于栅栏算法来衡量多个模型在过去的可靠性,利用当前帧的漂移程度来衡量模型在当前的可靠性,通过选择性地遍历方法来整合两种指标预测最优位置。本文提出的方法可以在目标发生遮挡、形变等严重外观变化时保持很好的鲁棒性。
其他文献
该文介绍了有关TEA CO激光器的一些基本原理,利用TEA CO激光器件的理论计算了折叠腔TEA CO激光器的一些结构参数及输出增益系数,利用气体快放电的模型对快放电过程进行了分析计算.在实验上,我们首先对折叠腔TEA CO激光器进行了安装调试,实现了双通道放电激励折叠腔TEA CO激光器的双通道同时辉光放电;双通道同时辉光放电下,对气体快放电过程进行了实验研究;完成了双通道放电激励折叠腔TEA
学位
近年来随着神经网络研究深度的增加,神经网络需要解决的场景越来越复杂,网络模型也随之变得复杂。复杂的模型使得预测过程的耗时逐渐变长,如何在保证原网络精度基本不变的前提下,对神经网络的预测过程进行加速是论文研究的重点内容。  论文主要研究了神经网络加速领域中的高效剪枝、低秩分解和硬件加速算法,并使用LeNet5、AlexNet、VGG11、VGG16等四种经典神经网络对上述加速算法进行实验验证。在此基
学位
近年来,随着材料技术、信息处理技术以及通信技术的发展,音视频会议系统已经克服了空间地理位置的限制,实现了人们远距离交互式的交流沟通。音视频会议系统可以让人们随时进行语音通话或者视频聊天,降低了沟通的成本,提高了办公效率。为了提高音视频会议系统的通话质量,使用自适应滤波器来消除回声信号对语音通话的影响。但是由于人们对音视频会议系统的通话性能要求越来越高,音视频会议系统中会配备多个麦克风设备和扬声器设
学位
随着无线通信技术的不断发展,电磁环境愈发复杂多变,传统的抗干扰方式缺少灵活性,无法动态地适应场景变化,高效可靠的智能抗干扰方案的研究势在必行。  本文设计了基于智能决策的抗干扰通信系统,将深度学习与强化学习算法应用到智能决策中,通过对传输环境的分析学习,完成信道与通信参数的智能选择,从而进一步提高系统的抗干扰能力。  首先对传统的抗干扰技术进行了概述,并对自适应抗干扰技术进行分析研究,指出上述方案
语音分离技术在语音信号处理系统及人工智能系统中有广泛应用。在实际环境下,传统的语音分离算法在低信噪比和高混响条件下存在泛化性能差等问题。本文结合人耳听觉感知特性,基于空间空间特征和谱特征,研究了基于深度神经网络的双耳语音分离方法。论文主要提出以下两种算法:基于前后帧信息的卷积神经网络CNN (Convolutional Neural Networks)双耳语音分离方法,基于语谱图和空间特征的深度聚
学位
尽管深度神经网络模型的性能出色,但随之而来的是急剧增长的计算力以及存储需求。模型压缩和加速技术研究的开展能够让深度模型更好地适应移动端设备。本文围绕基于模型剪枝的模型压缩和加速技术进行探讨,着力于在有效降低深度网络参数量的同时保证网络精度不明显下降。本文一方面结合迭代剪枝中的权重绝对值和对应变化量作为重要性判断依据进行剪枝,另一方面将剪枝框架和知识蒸馏结合以获得更好的压缩效果。本文的主要工作总结如
学位
调制识别一直是通信系统的一个重要研究领域。不论在军用领域的电子侦察、敌我识别还是民用领域的认知无线电等,调制识别都有重要应用,也是最为核心的技术之一。近几年随着5G的到来与AI技术的发展,调制识别技术的研究更加热门。目前调制识别多在高斯白噪声条件下研究,虽已取得了一定的研究成果,但距离实际应用还有较大的距离,这是因为通信设备所处的电磁环境日益复杂,形式多样的干扰无处不在,原有的调制识别方案大多对干
学位
情感识别在人机交互方面一直是一个极其重要的领域,涉及到了人工智能,情感计算等多个组成部分。语音往往能够直接的表达出人类的情感,因此如何提高语音情感识别的准确率一直是声学领域的热门研究课题。语音情感识别在生活中有着重要的意义,如机器自动识别儿童的情感并加以疏导或记录,以便家长能够更好的关注于儿童的心理健康;在公安局或监狱内,通过非接触式的识别被审问人的语音情感,能够更好的辅助警方发现嫌疑人的心理活动
语音分离技术作为语音信号处理系统前端,其分离的语音质量会直接影响到语音信号处理系统的性能。传统语音分离算法在高混响、低信噪比的环境下性能下降严重。本文在计算听觉场景分析CASA(Computational auditory scene analysis)框架下,结合麦克风阵列空间信息和深度神经网络,提出了两种语音分离算法:基于改进的相位变换加权可控响应功率 SRP-PHAT(Steered Res
学位
语音是人和人之间最重要的沟通媒介之一,在人机交互中也扮演着非常重要的角色,因此语音识别一直是人工智能领域的热门研究方向。传统的语音识别一般需要大量的有标注语音数据参与训练模型,才能使模型在测试数据上达到较高的准确率,进而达到应用在工业生产和日常生活的需求,而语音数据的采集和标注往往需要耗费大量的人力物力,训练过程也需要消耗大量计算资源,不仅如此,针对小语种和方言,标注数据的获取更为困难。为了应对这
学位