论文部分内容阅读
“白金十分钟,黄金一小时”是伤员搜救的重要准则,但复杂多变的灾后或战场环境制约伤员搜救任务的快速展开,影响伤员后续的救治和康复。搜救无人机可以从空中快速抵近现场,通过视觉传感器获取现场图像,并结合目标检测算法实现快速的伤员目标搜索,提高伤员搜救任务的效率。然而无人机视觉传感器易受外界环境干扰,其图像会出现不同类型缺陷,伤员目标检测算法运行性能急剧下降。因此,本文开展基于深度学习的图像增强研究,提出三种图像增强模型,并将之应用于无人机视角的伤员搜救任务。通过增强缺陷图像中的伤员信息表达,提高伤员目标检测算法在缺陷图像上的性能表现,实现基于鲁棒视觉的伤员搜救。本文取得如下创新性成果:1.针对搜救现场的伤员缺损图像,设计了一种通用渐进式图像修复框架,该框架可以将复杂图像修复任务拆解成若干易于实现的子任务单元。首先设计具有基本图像修复功能的单元网络,随后通过渐进式结构串联各单元网络构建完整图像修复网络。该框架采用三项模型构建策略以保证深层网络、维持模型稳定并提高修复质量:待修复图像的多级输入以降低梯度弥散风险,各单元网络的参数共享以降低模型权重,以及不同损失函数组合以从多维度约束修复后图像的质量。在该框架内构建了一个轻量化渐进式图像修复网络模型(Lightweight Progressive Inpainting Network,LPIN),它能够保持简洁架构的同时实现先进的图像修复功能。在公开无人机遥感图像上的验证结果表明,与LPIN结合的场景分类算法在不同类型缺损图像上的总精度最高可达无缺损图像上的99%;在自建伤员目标检测验证图像(Casualty Object Detection Validation Image,CODVI)上的结果表明,与LPIN结合的目标检测算法在不同类型缺损图像上的平均精度最高可达到无缺损图像的97%。2.针对LPIN对不规则孔洞缺损图像的语义修复能力不足的问题,设计了基于注意力的语义修复单元网络(Attention-based Semantic Inpainting Unit,ASIU),并在本文的图像修复框架内以ASIU为基础构建了渐进式图像修复生成对抗网络模型(Progressive Inpainting Generative Adversarial Network,PIGAN)。在ASIU中,设计了通道注意力上采样层(Channel Attention Upsample,CAU)使模型加强对合理特征的关注,同时使用部分卷积结构抑制缺损区域特征的表达。此外,生成对抗结构可以保证PIGAN输出更真实的图像修复结果。相比于LPIN和其他几种主流图像修复模型,PIGAN具有更好的图像修复能力。在自建CODVI图像数据集上的结果表明,与PIGAN结合的目标检测算法在不规则孔洞缺损图像上的平均精度最高可达到无缺损图像上的94.5%,高于LPIN的89.1%。3.针对搜救现场的暗光伤员图像,设计了一种不依赖匹配暗光/亮光图像的无监督亮度转换生成对抗网络模型(Lightness Transfer Generative Adversarial Network,LTGAN),能够有效提升暗光图像亮度。在LTGAN中,使用了额外的HSL格式图像作为输入以降低模型对RGB格式图像的依赖,防止增强后的图像出现色彩失真;同时基于Retinex理论和HLS格式图像设计了光照感知模块(Light Perceptive Module,LPM),使模型能够更专注于处理图像的亮度信息。LTGAN在公开暗光图像上实现了良好的亮度提升效果,在真实暗光伤员图像上提升了15.9%的伤员目标检测算法平均精度。4.针对真实环境下的无人机视角伤员搜救实用化需求,构建了伤员搜救数据集(Casualty Search and Rescue Dataset,CSARD),并在此数据集上进行了结合本文图像增强模型的三种通用目标检测算法Faster R-CNN、YOLO v3和YOLO v4(简称“结合算法”)性能测试实验。结果表明,结合算法在缺陷图像上最高提升了50%的检测平均精度。在缺陷视频上的实验结果表明,结合算法最高降低了31%的伤员漏检率。在不同飞行高度和速度视频上的鲁棒性实验结果表明,本文图像增强模型同样有效。综上,无人机搜救现场的图像缺陷会导致伤员目标检测性能急剧下降,本文围绕这一问题提出三种图像增强模型。首先,针对伤员缺损图像提出了一种通用图像修复框架,并在此框架下构建了两种图像修复模型LPIN和PIGAN;其次,针对暗光伤员图像提出一种暗光图像亮度提升模型LTGAN;最后,构建了无人机视角的伤员搜救数据集CSARD,并基于此对各图像增强模型进行了评估实验。实验结果表明本文的三种图像增强模型能够显著提高不同目标检测算法在缺陷图像和视频上的目标检测性能,降低伤员漏检率,从而提高了基于视觉的伤员搜救任务鲁棒性。