论文部分内容阅读
目标识别是计算机视觉领域的重要技术之一,人体识别技术作为目标识别技术的一个分支,可以将静态图像或视频序列中的人分类到正确的类别。在自动驾驶、安全监控和搜索救援等许多应用中需要该技术。目前最先进的人体识别系统在设计模型时重点采用深度卷积神经网络。然而,由于人们可以做出大量不同的运动和姿态,因此将图像和视频中的人进行准确识别依然是一项挑战,尤其是当被识别的人在不同的光照条件下或夜间被采集,且具有不同的表情、不同的行走状态、不同的视角和不同的行为时,更使得识别任务变得困难。人体识别技术在夜间的应用相比于白天同样重要甚至更加重要。本论文主要研究夜间红外图像和视频序列中的自动人体识别和检测问题。基于对人脸识别、性别识别、步态识别、人体行为识别和人体检测等技术的研究,本文提出了五个人体识别和检测模型,分别是TIRFace Net模型、TIRNGait Net模型、YOLOv3-Human模型、MTIR-HAR模型和TIRN-HD模型。所提出的五个模型可以实现对夜间的红外图像和视频序列的高准确率的人体识别和检测。本文的主要研究工作和创新点如下。(1)针对缺少适用的夜间红外数据集问题,本文创建了一个包括多模态的人体数据的DHU夜间红外数据集,并对数据集中的红外图像进行了预处理、标注和注释,以便所提的五个模型可以在该数据集上进行训练验证测试。(2)为了提高夜间或低照度下对红外热像和视频中的人脸识别的准确率,提出了一个TIRFace Net模型。该模型设计了一个具有23层的基于CNNs网络的新网络结构用以根据人脸来检测和识别人体。该模型包括三个子网络Net-1,Net-2和Net-3。Net-1可以实现热红外图像和可见光图像的匹配,Net-2可以实现红外热图像和可见光图像的结合以产生新的人脸样本图像用于识别,产生样本图像后,Net-3学习人脸样本以识别最具鉴别性的面部特征变化,用以预测给定的一对图像的相似性。该模型的主要贡献在于新的网络结构可以从热红外图像中获取更复杂的特征,并且该模型用较少的深度层来实现三个子网络的多个任务。获取更复杂的特征对于提高夜间热红外图像人脸识别的准确率至关重要。两个包含热红外图像和可见光图像的数据集(DHUFO数据集和DHU夜间人脸数据集)用来验证TIRFace Net模型的有效性。实验结果表明,相比于其他相关方法,所提的TIRFace Net模型可以获得更好的识别准确率,在DHUFO数据集上的准确率为98.50%,在DHU夜间人脸数据集上的准确率为98.70%。(3)为了提高对夜间热红外图像中步态的识别准确率,提出了一个TIRNGait Net模型。该模型基于CNNs网络设计了一个新的网络结构NGait Net用以识别夜间不同行走状态下的人体步态。该网络包括输入层、四个卷积层、扁平化模块、全连接层和输出层。四个隐藏层的设计基于设置基于步态识别任务的合适的参数,从而提高步态识别的准确率和速度。NGait Net网络可以增强热红外图像,获取步态的各种特征如头部、躯干、双手和双腿的特征,为识别产生平衡样本。该模型的主要贡献在于可以用更少的深度层和更快的速度从红外图像中提取更复杂的步态特征。四个隐藏层Conv1、Conv2、Conv3和Conv4可以实现如下的多个任务。Conv1可以实现填充后的批标准化使得数据更平滑和减少像素化效果。Conv2可以实现Gabor滤波来检测边缘、连接边缘之间的线以获得人体轮廓,并从步态能量图中提取步态特征。Conv3实现用联合步态不对称度量方法融合基于速度的不同的步态模式参数来获取用于识别的平衡样本。Conv4和全连接层实现检测的人体步态特征与数据集里的人体步态特征的非线性匹配,从而预测不同步行速度下的人的所属类别。该模型可以基于人体步态的不同速度来识别步态能量图中的人,因为步态能量图能更好地描述轮廓,从而提高夜间步态识别准确率。实验结果表明所提的TIRNGait Net模型在DHU夜间数据集上针对正常速度、快速和慢速行走状态分别达到了97%、86%和87%的准确率。在CASIA C数据集上,相比于其他方法,该模型对快速行走状态下的识别得到了更高的准确率98%。(4)设计了一个融合物理和行为生物特征即面部和步态特征来识别人体的新模型YOLOv3-Human模型。该模型的主要目的是在不同的步行状态下用人脸识别、性别识别和步态识别技术来自动识别人体。新的网络结构通过对只含一个分类器的YOLOv3网络进行改进,将人脸分类器和步态分类器融合到一个模型里。提出的网络结构含三个子网络OTI-Net,PDM-Net和PRM-Net。OTI-Net子网络优化热红外图像以提供更准确的图像中的面部、步态和人体形状特征。PDM-Net子网络处理优化后的图像以检测不同大小的人体。PRM-Net子网络对图像中的人进行分类识别。该模型的主要贡献在于融合了人脸、性别、步态和人体形状用以识别热红外图像中的人并提高了夜间的人体识别准确率。与其他单独使用人脸识别的模型和单独使用步态识别的模型相比,在同一数据集中,所提出的使用融合特征的YOLOv3-Human模型在人体识别的准确率和速度上表现更佳。在DHU夜间数据集上实验结果显示,提出的YOLOv3-Human模型结合性别的人脸识别达到了更高的准确率99%,步态识别达到了90%。在FLIR数据集和KAIST数据集上,提出的YOLOv3-Human模型在识别多个小尺寸的人体上获得了较好的TP检测值,获得的AP值分别为67.54%和65.01%。(5)针对夜间多视角人体行为识别问题提出了MTIR-HAR模型。该模型的目标是提高对来自热红外图像的原始数据中的人体运动和行为识别的准确率。设计了一个新的基于RNNs网络的网络结构,添加了六个NNs层到原始RNNs中以提高夜间人体行为识别准确率。新的网络包括输入层,六个RNN深度层,平均模块,Softmax激活函数模块,预测模块和输出层。该网络模拟出原始数据中的人体特征以获得用于识别的参数。所提MTIR-HAR模型的主要贡献如下:首先,模型在RNNs里具有六个深度层,可以从真实的夜间监控环境中的人体行为中获取更复杂的特征和信息,并且可以通过夜间采集的热红外图像中的变化来表示人体各部位的运动;第二,该模型克服了传统方法的一些不足诸如高功耗、高速计算要求、额外的硬件要求或无线传输要求;第三,该模型在不同类型的数据集上达到了更好的人体行为识别率。所提MTIR-HAR模型的实验结果与其他SVM方法和LSTM模型相比取得了更好的准确率,在MHAD数据集上准确率高于98%,在DHU夜间数据集上准确率高于80.2%。(6)提出了一个对夜间热红外图像和实时视频序列中的人体进行检测的新模型TIRNHD模型。该模型的目标是提高真实夜间监控环境下的人体检测准确率。我们通过提升Tiny-yolov3网络设计了一个新的网络,该网络与其他方法在内部设计、预处理、特征提取和检测算法上有所不同。新的网络结构包含由上采样层互相连接的TIE-Net子网络和PDM-Net子网络。热红外图像采用TIE-Net子网络进行增强和优化,因为该子网络在初始卷积层包含生成对抗网络GAN-Net的Conv和De Conv结构,可以减少卷积层间的信息损失。添加了上采样层用于连接TIE-Net的输出和PDM-Net的输入并减少数据的采样率。PDM-Net子网络用Darknet-53实现特征提取以获取人体的更复杂的特征,用PDL-Net实现人体检测用于识别。所提的TIRNHD模型使用一个RGB预训练模型产生新权重系数,用来学习热红外图像的特征。为了预测热红外图像和实时视频里的人体,测试图像中的人体参数与数据集里图像中的人体参数进行匹配。所提TIRN-HD模型的主要贡献在于通过使用改进的Tinyyolov3网络将RGB YOLO人体检测用于检测红外热图像中的人体。实验结果表明与其他相关方法相比,当不同尺寸的人在不同的光照条件、不同的天气条件和离摄像机不同的距离行走时,所提TIRN-HD模型在人体实时检测中达到了最高的AP值和TP检测并且延迟更短。在本文的研究中,我们创建了一个DHU夜间数据集并提出了五个新模型TIRFace Net,TIRNGait Net,YOLOv3-Human,MTIR-HAR和TIRN-HD用于夜间热红外图像和视频中的人体检测与识别。五个所提新模型的所有实验结果在准确率和速度上都超越了其他相关方法。并且,所提的YOLOv3-Human模型和TIRN-HD模型基于YOLO结构,采用融合面部和步态特征以及人体形状来进行人体识别,而其他三个基于CNNs和RNNs的所提模型TIRFace Net,TIRNGait Net和MTIR-HAR采用单独的面部特征或步态特征,相比之下,YOLOv3-Human模型和TIRN-HD模型用更快的速度达到了最高的识别率。本文的研究成果对基于热红外成像的夜间人体检测识别领域可提供一定的理论技术支持。