基于RGB和热红外信息融合的目标跟踪

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:weiyuanbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标跟踪问题是计算机视觉领域的热点研究课题,其通过视频序列第一帧目标的位置尺度信息,预测出后续帧目标的位置和尺度。目标跟踪技术广泛应用于安防监控、智能交通和体育赛事转播等领域。现阶段的目标跟踪面临许多挑战,比如运动模糊、低光照、目标被遮挡、背景干扰等因素,影响了跟踪器的性能。近年来借助深度学习的蓬勃发展,科研学者提出了基于深度学习的目标跟踪框架来解决可见光(RGB)目标跟踪问题,这些目标跟踪算法利用大规模的复杂视频序列数据集和深度神经网络,使得提取的目标特征更具鲁棒性,提升了目标跟踪的效率和精度,可是复杂环境下的挑战因素依旧会极大程度地降低跟踪器的精度。为了克服目标跟踪过程存在的问题,将热红外(T)模态引入到跟踪器中与可见光模态互补,成为提高跟踪精度的新思路。本文研究了可见光和热红外信息融合的目标跟踪,主要工作和成果如下。第一,提出了基于通道动态加权孪生网络的RGBT目标跟踪方法。当使用Siam FC作为RGBT目标跟踪的基准算法时,不同的跟踪挑战对可见光图像和热红外图像的成像质量存在差异性影响,因此简单地相加模板图像与搜索图像互相关产生的多通道响应图,会导致目标定位不准。针对上述问题,该方法提出了通道动态加权模块,将每个通道的响应图视为不同的预测偏好,首先在空间维度压缩响应图并构造空间描述子,输入到感知机建立通道依赖模型,然后利用网络学习到的权重向量对原始多通道响应图加权求和得到最终的响应图,从而确定跟踪框的具体位置。通道动态加权模块通过关注可靠的响应图,降低不可靠通道的响应图噪声干扰,解决目标定位不准问题。此外针对目标暂时被遮挡或者目标快速移动导致的目标丢失的问题,提出了一种重检测机制,通过扩大搜索图像的范围使跟踪器能够再次捕捉目标。最后在GTOT数据集和RGBT234数据集进行了一系列实验,证明本方法的有效性。第二,提出了基于跨模态特征增强的RGBT目标跟踪方法。目前实现RGBT目标跟踪常用的手段是在通道上对可见光图像特征和热红外图像特征进行拼接并输入到RGB跟踪器,但简单的融合策略没有利用模态内特征的联系,也没有利用模态间特征的联系,会引入各个模态的噪声。针对上述问题,本文提出了一种跨模态特征增强策略,设计了自注意力模块和协同注意力模块。自注意力模块和协同注意力模块通过非局部操作,分别建模模态内与模态间特征图上任意两个空间位置的关系,捕获远程依赖,获取全局信息,增强网络在空间域上的建模能力,提高目标在复杂场景下的表征能力,实现鲁棒的RGBT目标跟踪。实验表明本方法在GTOT数据集和RGBT234数据集上的PR指标和SR指标均实现较优的结果。本文的工作为解决复杂环境下鲁棒的目标跟踪提供了理论和方法支撑,对跟踪模型目标定位不准和特征表达能力不足的关键问题提出了改进方案。
其他文献
源代码的可靠性是软件系统安全的重点,传统的源代码脆弱性分析技术面临着规则制定困难、检测漏报误报率高的问题,随着大数据对安全的赋能,基于深度学习算法的大规模源代码脆弱性检测方案,能有效提升源代码分析规则生成与匹配的精准度,然而其检测粒度较粗,主要适用于对源代码进行文件或函数级别的分析,难以对复杂结构代码进行语句级别的细粒度分析。最近基于图神经网络的大规模源代码脆弱性检测研究,主要关注复杂结构源代码的
学位
随着“智慧矿山”的大力发展,煤炭企业在开采、运输、供电等生产环节中提高了装备自动化水平和环境监测能力。在此基础上,企业通过矿井钻孔设备获取了大量的矿井数据文件,而在智慧矿山的实践实例中,需要对以文本文件和视频文件为主的矿井数据文件进行更进一步地分析,以便充分利用矿井数据,提高分析矿井数据的能力。对于企业来说,文本文件中能够反映岩层信息的数据主要以曲线形式进行展示和处理,视频文件则以其图像展示岩层特
学位
客服帮助企业处理与客户之间的关系,了解客户的诉求,而客服系统以软件能力支撑客户服务,是企业整体发展的必要环节。在科技高速发展的背景下,互联网企业的主体业务扩展到电商、网约车、娱乐等各个领域。传统客服系统无法同时满足企业里多条产品线的需求,但为每个产品线独立研发客服系统代价太大,且难以让各产品线之间共享客服数据。因此客服系统只有向中台化转型,才能减少开发成本,赋能企业内多条产品线的建设,并最大程度利
学位
随着计算机在人们生活工作中的普及,越来越多的人在使用电子显示屏幕的过程中出现了不同程度的疲劳症状。疲劳的出现不仅会使得作业人员的工作能力下降,当人体在发生疲劳后继续作业,还会引发一系列健康问题。研究发现,近些年来因长时间使用电子设备遭受眼疾的患者数量大幅增加。如何及时且准确的检测作业人员的视觉疲劳状态对于减少人群中相关疾病的发生有着重要的意义。目前的疲劳检测方法存在着如数据种类单一,检测结果易受环
学位
拷贝数变异(Copy number variation,CNV)是基因组中一种重要的结构变异,它通常是基因组变异中最常见的变异。研究表明,基因组CNV区域中是否隐含具有生物意义的基因,与癌细胞的产生和发展有密切联系。因此对CNV进行合理的分析,能够为癌症发生机理研究和靶向精准诊疗提供重要信息和科学依据。准确检测CNV是对其进行合理分析的基础,然而,由于CNV区域长且形式复杂多样,对其准确检测具有极
学位
在现实世界中存在着大量的昂贵有约束的黑盒优化问题,这类问题具有问题无梯度信息、约束条件难处理、真实函数评价数据昂贵的三大难点。数据驱动的进化约束优化分别采用了进化算法、约束处理技术和代理模型逐一应对,已经成为解决这类问题的主要方法。现有的数据驱动的进化约束优化方法在解决昂贵有约束的黑盒优化问题上取得了一定成果,但在解决这类问题上仍遇到了诸多挑战。尤其在较小真实数据量的情况下,算法需要在有限的数据量
学位
不同于传统的图像传感器,动态视觉传感器(Dynamic Vision Sensor,DVS)在成像原理上只有外界光照强度的变化值超过设定的阈值时才会有图像。因为这种特性,使得DVS图像传感器在成像上具有低冗余、高帧率、成像时间短的特点。凭借这些特点,DVS图像传感器在自动驾驶、运动目标检测等领域具有传统图像传感器不具有的优势。本文在课题组设计的DVS传感器的基础上,实现的工作包括系统硬、软件及结构
学位
在互联网飞速发展的背景下,网络中的知识信息迎来了爆炸式的增长,大量的领域知识分散地隐藏在网络数据中。面对海量的领域知识,想要第一时间从中获得需要的关键信息变得非常困难。由于缺少统一的知识集成管理和可视化分析方式,导致知识的共享率不高,而且无法进行有效的分析和复用。此外,在数据多样化的发展趋势下,人们对于知识的多维度表示需求日益增加,这对知识的共享管理和可视化分析提出了更高的要求。目前已有一些知识平
学位
行人检测作为智能安防系统、自动驾驶系统、智能机器人等应用领域的关键技术,有重要的研究价值和意义。目前基于深度学习的行人检测已初步取得成效,但针对大视场高分辨监控视频中的行人检测研究较少,由于其中行人数量多、尺度差异大,已有的行人检测模型难以实现准确的检测定位。本文开展了基于深度学习的大视场高分辨监控视频行人检测研究,结合图像的特点,在图像预处理,提取特征,图像后处理三部分进行了改进,提升了行人检测
学位
人脸吸引力评估研究作为计算机视觉领域中具有挑战性的课题,受到了许多学者的广泛关注,同时也取得了一系列研究成果。但是先前的人脸吸引力评估方法主要学习的是从人脸美学特征点到吸引力得分之间的简单映射,这些方法忽略了人脸吸引力评估中存在的主观性,即不同的人对人脸美学的认知或评判标准是存在偏差的。另外,现有的公开人脸吸引力数据集规模较小,使得模型容易过拟合且泛化能力较差。针对以上问题,本文提出基于相对排名的
学位