论文部分内容阅读
随着信息化的普及以及许多“智慧城市”项目的建设,视频监控系统在许多领域发挥着极其重要的作用,属于智能交通、智慧安防等领域的基础设施。但是在现实场景中基于摄像机的行人检测仍然存在着诸多挑战,多变的行人姿态和人体外观,以及目标之间的遮挡都影响着检测器的效果。传统机器学习方法,如HOG+SVM,ACF,DPM等已经能较好地实现行人检测,但检测性能与实际应用要求还存在一定差距。深度学习方法利用强大的卷积神经网络提取更鲁棒的行人特征,能有效提高检测准确率,但是对光照过于强烈或者不足、行人目标太小等现实问题还没有很好的解决方案。多特征融合可以包含更多语义信息,从而对光照变换、部分遮挡等困难问题有一定作用。此外,不同尺度卷积层特征的结合,可以得到包含不同尺度的行人特征,为小目标检测提供更多细节信息。基于以上思路,本文实现了一种基于深度网络迁移学习的多摄像机目标检测与再识别系统,主要工作包括:1.介绍基于传统机器学习和深度学习的主流行人检测算法,进行实验对比并指出其优点和存在的不足;2.目前主流的深度学习行人检测算法Faster R-CNN、YOLO、SSD等都存在浅层特征表达不充分的问题,本文利用层数更多的残差网络作为检测基础网络,得到更鲁棒的行人特征;3.借鉴多通道聚合(ACF)算法的思想,在候选框生成之前对目标不同尺寸的特征做多层特征融合,有效降低不同光照条件对目标检测的影响;4.将不同尺度候选框生成任务相互级联,形成多任务网络特征共享,加强对行人小目标的检测效果;5.搭建多摄像机行人检测与再识别系统并得出实验结果。实验结果显示,无论在Caltech[49]、KITTI[50]公共数据库还是在校园拍摄制作的Campus-day-night数据库上,本文提出的MFRD检测算法在精确度、漏检率等方面均优于目前主流的检测算法。