论文部分内容阅读
信息技术的迅猛发展使人们生产与收集的数字化数据越来越复杂,除了数据的维度越来越高,表示形式也越来越多样化,呈现出多态性、多源性和多描述性的特点,这些数据通常被统一称为多视角数据或多模态数据。当前大量存在的多模态数据,使得传统的面向单一模态的数据分析方法面临着新的挑战。开展多模态分析方法研究,挖掘出多模态数据中潜在的共性信息已成为目前机器学习领域的热点研究方向,具有很好的理论研究意义和应用价值。本文主要针对基于多模态数据的目标检测与追踪算法进行研究并取得了以下结果:(1)针对可见光单模态行人检测模型在部分复杂场景中表现较差,及基于Faster R-CNN的多模态行人检测算法对多尺度目标的检测能力有限的问题,根据特征生成网络(深度残差网络)的阶段性特征输出搭建具有多种尺度特征图的特征金字塔,并将其引入到基于Faster R-CNN的多模态行人检测框架中,提出了基于特征金字塔的多模态行人检测框架。在公开的标准多模态行人检测数据集上与可见光单模态行人检测算法、红外热单模态行人检测算法以及普通基于Faster R-CNN的多模态行人检测算法Fused RPN[40]进行对比,证明了基于特征金字塔的多模态行人检测算法的有效性。(2)针对基于特征金字塔的多模态行人检测算法,提出了四种不同的多模态融合架构(特征金字塔融合-级联,特征金字塔融合-较大值,特征金字塔融合-叠加和分数融合),分别在不同阶段以不同的方式集成了可见光和红外热模态信息。通过在公开的标准多模态行人检测数据集上进行测试,深度分析了这四种不同融合架构的有效性与局限性,初步确定了最优融合架构为叠加融合。(3)根据可见光模态和红外热模态所提取特征的特征强度不同,提出了结合较大值融合与叠加融合的锐化融合架构及应用该架构的基于特征金字塔锐化融合的多模态行人检测算法。根据各模态提取特征的光照强度敏感程度不同,设计了一个光照强度估计网络用于生成光照强度权重,提出了基于光照强度权重的加权叠加融合架构及应用该架构的基于光照强度权重加权融合的多模态行人检测算法。根据各模态提取特征的尺度特性不同提出了基于自适应特征尺度隶属度参数加权融合的多模态行人检测算法。最后在公开的标准多模态行人检测数据集上分别对这三种改进的特征金字塔融合的多模态行人检测算法进行了测试,并与母算法——基于特征金字塔叠加融合的多模态行人检测算法、目前较先进的多模态行人检测算法Fusion RPN[24]进行了对比,证明了这三种算法的有效性,并分析了其局限性。本文根据特征生成网络的阶段性特征输出,将特征金字塔网络引入多模态行人检测中,提出了基于特征金字塔的多模态行人检测框架,同时探索了该算法框架的最佳融合架构,并通过实验验证了该算法框架的有效性。此外,基于该框架,根据多模态特征在强度、光照敏感度和尺度特性上的差异,分别提出了三种不同的改进的多模态行人检测算法,并通过实验分析了它们的有效性与局限性。