论文部分内容阅读
语义分割是计算机视觉中的一个重要课题,被广泛应用于自动驾驶和医学图像分析等不同领域。它为图像中的每个像素点都标记一个语义标签,实现像素级的分类。本文提出了两种改进的语义分割网络,分别应用于二维场景图像和三维脑部MRI图像,即场景解析与MRI分割。论文的主要内容如下:(1)语义分割网络中多阶段的卷积和池化会减小图像尺寸,从而损失位置信息。此外,当图像中的类别数量较多时,语义分割的准确性会降低。针对以上问题,本文将基于分组卷积和注意力机制的ResNeSt与基于多尺度特征融合的PPM进行结合,形成一种新的语义分割网络。它通过注意力机制提取并融合不同分组卷积中相对重要的特征,减少了下采样过程中图像特征的丢失,从而获得更准确的位置信息。在ADE20K数据集上的实验表明,MIoU达到41.54%,PA达到80.21%。与PSPNet相比,MIoU提升了 0.81%,PA提升了 0.44%。(2)由于三维脑部MRI图像体积较大,每块GPU只能加载1或2个样本,批次数量小容易导致批归一化对数据分布估计不准确,而引起内部协变量偏移。本文使用组归一化代替批归一化来改进3D U-Net,组归一化对通道分组,在通道维度上对每组进行归一化,可以用来解决批次数量小带来的问题。在ADNI数据集上的实验表明,改进后的3D U-Net的平均Dice系数为0.8261,高于原始3D U-Net的0.8151。(3)基于本文提出的两种网络,设计并实现语义分割系统,可对单个或批量的二维场景图像和三维脑部MRI图像进行语义分割。该系统还实现了在线的二维和三维图像叠加查看器,用于以不同混合比例同时展示原图和分割结果图。此外,该系统还包含多个管理模块,方便管理员用户对所有用户、任务、容器、日志进行管理。本文设计、实现并运行了所提出的二维和三维语义分割网络,验证了网络的有效性。随后,将分割程序封装为HTTP服务,并与训练好的模型一起打包成Docker镜像,以便于快速分发与部署。最后,本文实现语义分割系统,使用户可以快速方便地调用二维场景解析和三维MRI分割服务。