论文部分内容阅读
目标检测的目的是检测图像和视频中感兴趣的目标物体,已被广泛应用于行人检测、车辆检测、智能安防等领域,具有重要的理论和实际应用价值。现有大型目标检测网络模型的识别精度高,但存在对小目标物体误识别、不识别和不同个例因候选框重叠度高而丢失的问题,以及过于庞大的模型参数量和计算量导致模型难以在移动设备端部署的问题。本文以小目标物体检测及模型轻量化设计为研究内容,以提升小目标检测模型性能、降低模型复杂度为研究目标。从特征不平衡问题造成网络模型对小目标物体识别率低和降低模型参数量两个角度对Mask R-CNN进行了深入研究。本文研究工作和创新点如下:第一、针对传统Mask R-CNN对小目标物体识别率低的问题,本文从以下两方面对Mask R-CNN优化:(1)为学习候选框小于32×32像素的小目标特征,本文提出全局特征金字塔网络(Global Feature Pyramid Network,GFPN)作为Mask R-CNN模型的特征提取网络,该网络通过融合特征金字塔各阶段的特征来增强原始特征信息流。与Mask R-CNN相比,在COCO数据集上使用Mask R-CNN+GFPN精度得以明显改善:m AP值提升了4~6%;AP50、AP75值分别提升了4~5%、3~7%;APL、APM和APS值分别提升了1~6%、3~6%和5~8%,其中衡量小目标物体检测精度的APS值提升幅度最大。(2)为解决目标像素大小不到整体图像十分之一的小目标因密集分布而造成部分目标候选框丢失的问题。本文首先构建手机泡棉片数据集,然后提出将soft-NMS方法嵌入Mask R-CNN+GFPN的新架构模型应用在该数据集上,获得了93.7%的精度,与原始Mask R-CNN+GFPN模型相比,精度提升2~4%。第二、针对Mask R-CNN模型参数庞大而无法运行在计算能力受限设备上的问题。本文提出了一种速度与精度均衡、适用于计算能力受限设备上的轻量化Mask R-CNN模型。将轻量化结构——倒置残差结构(Inverted Residual Structure,IRS)融入Mask R-CNN+GFPN网络中以减小模型复杂度,同时运用线性瓶颈理论(Linear Bottlenect)降低因模型轻量化造成的模型精度损失。通过实验表明,Mask R-CNN+GFPN+IRS的权重文件大小相较于Mask R-CNN+GFPN减小了2/3,而m AP值只下降了约2~4%,并且在CPU上达到与GPU上接近的处理速度,约为0.4~0.6s/张。对比Mask R-CNN+GFPN模型在CPU处理速度(1.0~1.2s/张)和GPU处理速度(0.5~0.7s/张),该模型提升明显。