论文部分内容阅读
随着民航产业的发展,飞行出行已经成为时下更多年轻人、中产阶级的首选。但是快速增长的旅客人群也为当今的机场安全带来了巨大的负担,停机坪作为机场中极其重要的一部分,建立全覆盖全天候的智能视频监控系统的需求迫在眉睫。智能视频监控中的核心技术人体行为识别在近几年发展迅速,但是研究的重点多是围绕可见光数据展开,在红外数据中少有建树。基于红外视频数据的相应技术因红外图像色彩纹理信息缺失、目标边缘模糊等问题依旧无法实现实时有效的人体行为识别。所以本文的研究针对红外视频中的人体行为识别而展开。传统的行为识别技术存在的主要问题是特征描述子表征能力弱,在复杂多变的场景下鲁棒性差,特征维度巨大,往往需要使用特殊的编码方法降维,这无疑加大了计算成本。而近几年兴起的卷积神经网络方法,其特征学习能力强,能够通过数据分布自适应地捕获其中的信息,提取出抽象的语义特征,其端到端的模型结构也大大减少了数据预处理和后续分类的计算成本。所以本文采用卷积神经网络的方法,对红外视频中的人体动作信息进行学习建模。本文的主要贡献如下:首先,本文提出了两种分别适合RGB数据和光流数据的三维卷积神经网络。两支网络根据相应的数据类型做出结构的调整,合理利用三维卷积与三维池化的优缺点,可以分别从原始的RGB数据和光流数据中对运动信息表征而不需要做复杂的预处理和后续特征编码。利用三维卷积神经网络强大的自适应学习能力,可以在两种数据类型下分别学习强判别力的运动特征。其次,为了在低光照条件下停机坪场面的视频监控中实时鲁棒地对人体行为进行识别,本文将两支网络的训练结果分别从可见光数据迁移到红外数据,实现了两种数据介质之间的知识迁移,并从红外数据中学习到了高效的特征。通过使用可见光的训练模型做初始参数,避免了直接在参数规模大的三维卷积神经网络上从头训练小规模数据集容易过拟合的问题。最后,为了进一步提高模型的分类效果,本文提出了一种将三维卷积神经网络结构与双流网络结构相结合的方法。通过对两支网络最后一层卷积层的输出特征做最大值池化、平均值池化、直接相加的方式,在特征层将两支网络相结合,进一步提高了特征的判别力。