论文部分内容阅读
行人检测和行人重识别是计算机视觉领域极具挑战性的研究课题,是智能监控系统和智慧城市构建中的重要环节,以其重要的理论意义和使用价值受到学术界和工程界的广泛关注和研究。其中,行人检测难以同时满足速度和精度上的要求,高效的检测器容易遗漏目标,高精度的检测器达不到实时运算。而行人重识别在研究和应用之间还有较大的距离,识别准确度也有提升的空间。本文主要围绕提高检测速度和重识别精度两项问题开展理论研究和广泛的实验验证,并将算法封装在软件中,通过在Jetson TX2的嵌入式部署构建出高性能智能监控摄像设备,打破了研究和工程的屏障。本文的主要创新工作如下:1.基于深度可分卷积并利用通道混洗、通道拆分以及恒等映射技术提出了三个轻量卷积单元。相比于普通卷积,本文提出的轻量单元在减少近7倍参数量和计算量的同时保持了模型的性能,通过在ImageNet上的分类任务训练和评估验证了提出的轻量单元比其他轻量单元有性能上的优势。2.对于轻量的行人检测网络的搭建,沿用YOLOv3的思想,利用提出的三种轻量卷积单元搭建主干网络,后续网络广泛使用分组卷积,使模型相对于YOLOv3在参数量上减少为原来的15%,速度提升约1.7倍,实现单纯的网络计算达到200FPS。基于平均距离和轮廓系数确定锚框聚类的中心数,用人脸和人体锚框分类聚类和组合的方式选择锚框尺寸,减小了1%的坐标预测误差。提出间隔交叉熵损失用于指导置信度训练,相比使用传统交叉熵训练提高了 4.6%mAP。模型在三个公开数据集上训练和评估,验证了提出的方法极高的实时性和具有竞争力的准确度。3.对于行人重识别网络,设计了局部特征和全局特征并行提取的结构,引入ArcFace进行分类学习,联合行人检测模型提升输入图片质量,减少无用的背景信息,避免了人体部件对齐的过程,使原始视频帧直接作为重识别网络的输入成为可能。提出可见度评分子网,用于联合局部特征向量进行加权距离计算以解决人像不完整或有高度遮挡的识别问题。模型在两个公开数据集上评估,其中在Market-1501数据集上取得目前最高的86.0%mAP和接近最好的94.1%rank-1准确率。4.将研究的成果封装成易于使用的应用程序,用PyQt编写了能够跨平台运行、兼容性高、界面设计精美的软件平台,以Jetson TX2为载体构建智能监控摄像头,摆脱了传统上对视频服务器的依赖,实现高性能高质量的边缘计算。