基于双模特征融合的目标检测算法研究

来源 :西安邮电大学 | 被引量 : 0次 | 上传用户：mm7458106

【摘要】

：

【作者】

：

孙颖

【机构】

：

西安邮电大学

【出处】

：

西安邮电大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的不断发展,目标检测作为计算机视觉领域中的一项基本任务,具有广泛的应用。基于深度学习的目标检测算法以其优越的性能,成为了当前研究的主流,然而大多数检测算法仅对可见光图像进行检测。通常情况下,可见光图像在天气恶劣、夜间、目标被遮挡等场景成像较差,导致检测性能下降。利用红外图像可以改善上述问题,但红外图像会缺失目标的部分细节信息。因此,基于可见光和红外图像的双模特征融合检测算法逐渐兴起。本文针对YOLO系列算法在红外图像和双模图像上的检测性能不佳,深入研究红外目标检测的特点以及双模图像特征融合方式,对原始算法进行改进,提出了三个不同的检测算法。本文的三个工作及贡献如下:（1）由于红外图像在夜间、遮挡等场景中成像较可见光图像好,以提升红外目标检测性能为基础,提出一种基于全局上下文信息的红外目标检测算法M-YOLO。算法通过全局上下文信息聚合模块获取多尺度局部特征信息,提高模型的全局信息感知能力;设计一种自顶向下和自底向上的并行特征融合方法,保留多尺度特征信息且增强特征的表达能力;为实现轻量级红外检测,结合轻量级网络对红外图像提取特征,并通过两支检测头完成多尺度预测。所提算法使用公开的FLIR红外数据集和自建的GIR红外数据集验证其性能。在FLIR数据集上,M-YOLO的检测精度为83.4%,与基准算法YOLOv4（78.1%）相比,精度提升5.3%,检测速度为30.6 FPS;在GIR数据集上,M-YOLO的检测精度为76.1%,比YOLOv4（69.7%）高6.4%。（2）针对基于可见光和红外图像的双模特征融合不充分的问题,提出一种基于双模融合网络的目标检测算法。首先,算法同时输入可见光和红外图像对,可见光图像通过设计的可见光编码器,从垂直和水平两个空间方向聚合特征,通过精确的位置信息对通道关系进行编码;利用红外编码器提取红外图像的空间特征信息;最后,采用门控融合网络自适应调节双模特征的权重分配,实现跨模态特征融合。所提算法使用公开的KAIST行人数据集和自建的GIR数据集验证其性能。在KAIST行人数据集上,算法的n模型检测精度为73.8%,与基准算法YOLOv5-n单独检测可见光和红外图像的检测精度相比,所提算法分别提升15.1%和2.8%;算法的n模型检测精度为74.5%,与基准算法YOLOv5-s相比,检测精度分别提升14.7%和3%。在自建的GIR数据集上,所提算法的检测精度和速度均有提升。此外,所提算法能对单独输入的可见光或红外图像进行检测,且性能较基准算法有显著提升。（3）针对进一步研究门控融合网络的灵活用法,充分融合可见光和红外图像特征,提出一种基于双模特征对齐的目标检测算法。首先,提出双流目标检测算法,算法支持同时输入可见光和红外图像对;其次,采用中期融合,门控融合网络由双模特征对齐模块和特征融合模块构成。其中,双模特征对齐模块通过计算多尺度双模对齐特征向量,提取双模对齐特征的细节信息。特征融合模块对双模融合特征重校准后,与双模对齐特征相乘,实现低层特征和高层特征共同增强跨模态融合。所提算法使用KAIST行人数据集和GIR数据集验证其性能。在KAIST数据集上,算法的精度达到77.1%,与基准算法YOLOv5-s单独检测可见光和红外图像的精度相比,分别提升17.3%和5.6%;在自建的GIR数据集上,检测精度为91%,相较于基准算法单独检测可见光和红外图像,精度分别提升1.2%和14.2%,且速度满足实时性要求。

其他文献

时域不连续伽辽金的多尺度/非线性电磁问题高效分析方法研究

随着电磁环境的日趋复杂,微波器件的高度集成化、小型化,以及工作频率的逐步提升,电磁分析中的多尺度及非线性问题越来越突出,这对传统电磁计算方法以及商业电磁仿真软件的计算规模和精度发起了巨大挑战。相较于频域方法,瞬态电磁分析方法中的时域微分方程方法在分析非均匀媒质、非线性多物理场电磁问题是具有独特的优势,且能通过一次仿真获取宽频带的信息。但由于多尺度系统模型离散网格尺寸不一而时域方法的稳定性受离散网格

学位

富锂锰基材料低首次库仑效率原因及改性策略

富锂锰基正极材料〔xLi2MnO3·（1–x）LiTMO2，0＜x＜1，TM=Mn、Co、Ni等〕（LROs）具有高容量、高工作电压、高安全、低成本等诸多优点，是下一代新型锂离子电池材料中最具有应用前景的正极材料之一。然而，LROs的低首次库仑效率严重地阻碍了其商业化，亟需深入研究其低首次库仑效率原因。从LROs的晶体结构及充放电行为出发，全面剖析了氧的不可逆流失、Li+不可逆脱/嵌、Li+与H+

期刊

城市低效工业用地再开发政策问题研究——以G化工园区为例

学位

Co-Cr-Fe-Ni系高熵合金及其复合材料微观组织与力学性能研究

本文通过改变Co-Cr-Fe-Ni系高熵合金中Fe和Cr的比例,选出Co Cr3Fe5Ni作为强韧化研究的基体,并采用分子动力学模拟的方法研究了冷却速度对Co Cr3Fe5Ni凝固相结构的影响以及300K温度下的拉伸过程。系统研究了合金元素C、Al、V、Ti和Y对Co Cr3Fe5Ni高熵合金相结构组成、微观组织以及力学性能的影响,阐明了高熵合金组织与性能随成分变化的规律,阐述了合金元素对高熵合金

学位

一种基于双通道信息融合的方面级情感分类模型

方面级情感分类是情感分析中的细粒度任务,其目标是识别句子中某一方面对应的情感态度,这类对针对具体方面的情感提取能够在个人、企业和相关部门作出决策时提供更加精准的数据支撑,因此具有非常大的现实意义。目前大多数情感分类模型在构建时往往只提取文本信息的某一类特征,而忽略了将多种特征融合也能给模型带来效果的提升。为解决以上问题,本文提出一种基于双通道信息融合的GCNN模型。模型构建主要思路如下:（1）在方

学位

基于财务战略矩阵的牧原股份财务战略优化研究

随着现代农业规模化、标准化以及产业一体程度的加深,规模化养殖企业迎来发展的春天,一大批生猪养殖类企业纷纷上市。在如此严峻的外部市场竞争下,如果一个公司要想充分发挥自己的资源优势,从而成为一个行业中的领头羊,选择恰到好处的发展战略是必不可少的一步。为了规避企业在发展过程中的经营风险,企业管理层在对战略的选择与制定上要充分利用现有资源,掌控好企业的战略走向。而财务战略作为企业战略的重要组成部分,它的正

学位

水在原状黄土中的入渗过程研究

我国黄土高原面积达44万km2,黄土厚度大、结构疏松、沟壑纵横、地形破碎,其脆弱的地质环境和不当的人类工程活动（不当的坡体开挖和灌溉）、集中的降雨模式,致使该地区成为我国地质灾害最发育的地区之一。降雨及灌溉入渗是诱发黄土滑坡的主要因素之一[1,2],因此,开展降雨和灌溉条件下水在原状黄土中的入渗过程具有重要的理论与工程实际意义。为此设计了室内大型原状土柱试验模拟不同降雨与灌水模式条件,在高度为1

会议

面向5G应用的双波束及宽角扫描阵列天线研究

5G移动通信是实现万物互联的重要支撑技术,在智慧城市、自动驾驶、智能家居和物联感知等方面有十分重要的作用。随着终端接入设备和数据吞吐量的急剧增长,传统天线形式已无法满足5G移动通信对天线提出的新要求。多波束、多频宽带、宽角扫描和高效率天线成为研究热点。针对5G移动应用对大容量和广覆盖阵列天线的需求,本文在Sub-6G频段和毫米波频段分别针对空间分集技术和阵列去耦技术开展了系统性的研究工作。主要创新

学位

基于时序帧信息融合与掩码细化的视频目标分割算法研究

视频目标分割是计算机视觉的重要研究方向之一,在智慧医疗、自动驾驶和视频编码等领域有着广泛的应用。根据人为参与程度的不同,视频目标分割应用场景可以划分为无监督场景和半监督场景两大类。本文工作着重研究半监督视频目标分割算法,即在给定视频第一帧目标掩码的条件下,分割出后续帧中对应的目标。随着深度学习的发展,众多基于深度学习的优秀算法被相继提出,推动了视频目标分割技术的进步。但由于视频目标分割算法面对着如

学位

基于结构光投影的高速小型化全方位三维测量技术与应用研究

基于结构光投影的三维测量技术因其非接触、高精度和全场测量等优点,逐渐应用于智能制造加工、材料性能测试、人脸识别与医学整形等新兴领域。但传统结构光投影方法在解决各行业的新问题时,由于不同应用场景限制,需要在测量精度、测量速度、测量范围以及系统小型化等方面进一步优化或提升。本文将结构光投影技术与多视角几何约束、立体视觉、深度学习等技术相结合,以高效相位展开、高精度散斑匹配与全方位形貌测量为视角,开展高

学位

基于双模特征融合的目标检测算法研究

与本文相关的学术论文