论文部分内容阅读
随着近来人工智能技术的快速发展,开发出优质的模型机器能够很好的辅助人工工作甚至取代人工,在CV(computer vision)技术领域里,使用深度学习技术已经为人类带来了许多革命性的突破,包括人脸识别、自动驾驶、虚拟现实等等。本文主要描述了如何利用深度学习技术在糖尿病视网膜病变这个医疗图像上做出辅助诊断,区别于基础的图像卷积处理,提出了基于目标检测的糖尿病视网膜病变多模型检测方法。得益于深度学习技术的应用,许多研究展开在单模型的图片分类。但是它的局限性还是比较大,对图片信息利用不充分或者对图片冗余信息过度获取,噪声数据较大,这样训练的模型鲁棒性不够。在一张图片上,有用信息可能集中在局部区域,医生在诊断疾病的时候也只用到了局部信息就可以诊断问题。为此我们采用目标检测技术,首先在原始图片上定位有用的Feature map,获取重要信息的特征;然后使用多模型集成去完成图像识别。主要的研究工作有如下三部分:(1)提出了检测网络DR-Faster-RCNN,该网络是在Faster-RCNN的基础上改进而来,目的是在原始图上提取重要Feature map。这其中还对比了单阶段的SSD和YOLO方法,分析了各个方法在速度、准确率上不同的优势。DR-Faster-RCNN网络作为两阶段网络,它在训练和测试阶段分成了两部分,训练阶段使用两步训练方式,而测试只需要用到RPN层提取重要Feature map。由于DR-Faster-RCNN是Faster-RCNN上改进的网络结构,还研究了如何重新训练整个模型和后续的分类网络结合。(2)针对重要特征信息的分类设计,我们构建多模型融合判断的分类网络结构,使用三个差异性较大的ResNeXt-101-32x8d网络、DenseNet101网络和EfficientNets B3网络,ResNeXt-101-32x8d网络在具有深度结构的优势,DenseNet101网络具有多路特征融合的优势、EfficientNets B3网络则验证了网络深度、宽度和分辨率之间的平衡来优化网络。我们还需要研究如何集成模型,达到最优效果。(3)为了提升各模型的性能,我们研究了一系列优化算法来优化模型。本文研究了随机加权平均(SWA)方法对本文模型在糖尿病视网膜病变数据集上表现,SWA是一种模型集成方法,它通过两个相同模型来寻找损失函数平面上的最优值来提升模型准确率。其次研究了ROIPooling对特征输入的影响,对比了加权特征输入的方式,发现经过ROIPooling池化后能够更好的获取特征信息。另外研究了Focal Loss损失函数的改进,它是在CrossEntropy的基础上进行了改进,加入了调制系数(1-_tp)~?,通过调制系数的调节可以让模型重点关注难易训练样本的训练。最后使用改进的方法以及提出的基于目标检测的多模型集成方法在糖尿病视网膜病变数据集上取得了0.941的准确率,达到了最佳效果。