论文部分内容阅读
人体行为的识别一直是人工智能领域比较热门的研究方向。已经被广泛应用在智能家居、虚拟现实、智能安防、视频监控等领域。但是在低照度情况下,尤其是在一些乡村的夜晚及比较暗的环境下,更容易发生犯罪等危险行为,在这样的环境下监控摄像头无法捕捉到清晰的画面,行为识别算法无法发挥其应有的作用。无人驾驶过程中需要识别出各种环境及天气下的行人行为及其趋势,在低照度下,无法捕捉到清晰的画面,从而无法达到安全驾驶的目的。目前的人体行为识别算法都是针对可见光图像的。多光谱成像技术不但能提供RGB图像,还提供有价值的远红外图像,其成像的物理特性能够让其实现全天候,低干扰的检测,在国防监控以及车辆辅助驾驶领域都有着广阔的发展前景。为了解决以上问题,本文首先利用多光谱设备提供的多模态数据对RGB图像和远红外图像中的行人进行检测。由于基于骨架的行为识别的每个子任务都是基于卷积神经网络的,所以我们对卷积神经网络的剪枝算法进行研究。之后在第一步得到的行人检测框内对人体关键点进行检测。最后利用人体关键点形成的骨架序列对人的行为进行识别。本论文开展的主要研究内容如下:1.基于Transformer特征融合及直方图层的行人检测网络研究。针对白天和夜间图像的特点提出两个网络FTHd(Day Network of Fusion Transformer and Histogram Layer)和FTn(Night Network of Fusion Transformer)。白天RGB图像纹理特征比较明显,我们首先将直方图层加在检测网络的输入分支中,之后再将不同感受野的特征进行Concat操作。最后我们在网络前端加入跨模态特征融合方法CFT模块对特征进行融合与交互。利用Transformer的自我关注机制,网络能鲁棒捕获RGB特征和远红外特征的潜在相互作用。夜间光照很弱,远红外图像起到关键的作用,但是远红外图像的纹理信息较弱,通过VGG网络已经可以非常充分的得到两流的特征,所以我们将VGG Conv4-3层卷积后的两流特征合并成一个流,这样不但能提高夜间数据集检测的准确率,还能大大的减少网络的参数量。最后,我们在VGG网络前端加入CFT模块进行特征融合,同时进行模内和模间融合。2.卷积神经网络通用化剪枝算法研究。行为识别的每个子任务都是基于卷积神经网络的,所以我们提出了针对卷积神经网络的通用化剪枝算法。首先对网络的所有特征层,采用特征反卷积可视化为指导的方法对网络特征进行剪枝,计算每一层网络的每一个特征图的贡献率及每一对特征图之间的相似度,对贡献率低及相似度大的特征图进行剪枝。剪枝后对网络参数进行Fine tuning,经过不断的剪枝循环迭代,生成最终精减后的模型。剪枝优化后的模型在速度提高的基础上,精度也有一定程度的提升。本文提出的特征反卷积的剪枝方法是通用的剪枝方法,可以应用于其他类似的网络剪枝任务中,不受网络输入图像类型及网络结构的限制。3.远红外人体关键点检测研究。低照度情况下的人体关键点检测是这部分需要解决的主要问题。本文创新性的利用远红外图像提取人体关键点,提出一种新的注意力导向的两阶段轻量级卷积神经网络LMANet。该网络包含两个阶段,第一阶段采用轻量级的深度可分离残差模块捕捉关键点的局部细节,而无需复杂的多个卷积层去捕捉图像的细节。第二阶段扩大图像的感受野,通过关键点之间的上下文关系来估计识别不好的关键点。由于远红外人体关键点检测没有公开的数据集,我们在公开的远红外行人检测数据集中挑选700张图像,进行人体关键点标注,并公开供其他研究者使用。4.利用远红外图像提取的人体关键点序列对人体的行为进行识别。主要工作分两部分:(1)首先将Conv-Shift-Conv(CSC)模块引入到网络结构中。之后针对CSC模块提出用更加稀疏的shift模块替换Shift-GCN中的shift模块,将其命名为Sparse Shift-GCN。提出网络减少了特征的冗余,防止了过拟合,提升了模型的泛化能力。最后,将OHEM Loss引入到提出的模型中。提出的模型在4个不同流上的精度均有不同程度的提升,提高了网络的整体性能。(2)在Sparse Shift-GCN基础上,提出将网络每层的输入输出个数设置成关节点的整数倍,即整数倍稀疏网络Int Sparse-GCN。接下来,我们对Shift-GCN中的mask掩膜函数进行研究和分析,发现mask掩膜函数80%以上的值都是不起作用的,针对以上问题设计了自动化遍历方法得到精度最高的优化参数。