论文部分内容阅读
尘肺病是我国发病人数最多、最常见的首位职业病。早期明确尘肺分期,及早选择针对性的、正确的治疗方案,可显著的提高患者生活质量及生存率,具有重要的临床价值。根据《GBZ 70-2015职业尘肺病诊断》的诊断标准,数字化X线摄影(digital radiograph,DR)是尘肺诊断的主要检查方法,尘肺诊断的核心是对尘肺X线胸片的正确解读。临床工作中,放射科医生主要根据小阴影的大小、形态、密集度、肺区分布以及是否出现大阴影等影像特征来进行分析,并结合患者的接尘史、相关实验室检查及临床表现,最终给出正确的尘肺分期。但是尘肺病的诊断过程较为复杂,在阅片者自身前后和阅片者之间都会存在阅片差异,特别是缺乏经验的低年资医师,很难准确识别重要的影像征象,给出准确的分期,因此如何提高阅片医师的稳定性及准确性是当前亟需解决的问题。基于此,本研究回顾性收集不同分期的尘肺筛查X线图像,参照《GBZ 70-2015职业尘肺病诊断》的诊断标准,分析临床尘肺分期评估的准确性及稳定性,为后续基于深度学习端到端自动尘肺分类模型的构建的必要性提供参考。一、研究方法1、病例资料收集广州市第十二人民医院2016年至2019年进行尘肺筛查的患者病例,共980例,胸片质量均符合GBZ 70-2015附录C中一级片。2、操作方法采用西门子Axiom Aristos X线双平版数字成像系统(DR)、柯达DV医用红外激光胶片及柯达8900干式激光洗像仪进行DR胸部X线检查。患者充分吸气后,采用自动曝光模式拍摄标准胸部正位片。选择了残差神经网络及密集卷积神经网络(ResNet50、ResNet 101、DenseNet)作为分类网络的构架,构建模型,使用优化函数(Adam)、激活函数(ReLU)以及损失函数(Categorical-Crossentropy),将其应用到数据集,并从头开始训练,模型训练完成后运用到新的图像上,最后评估模型分类效能。3、评价方法第一部分:由3位不同年资的尘肺影像诊断医师(低、中、高,诊断经验分别大于5、10、15年)独立阅片对尘肺影像分期进行评价。收集3名不同年资医师(R1、R2、R3)的初步评估结果;并从每个病例的原始报告中提取分类并标记为Report;由3位医师共同阅片达成一致的分期为相对金标准,记为Major。第二部分:分别采用查准率、查全率与综合分类率为单个模型的分类指标,采用宏平均及微平均作为评价模型整体分类效果的指标,并采用了接收者操作特征曲线(ROC)分析和ROC曲线下面积(AUC)来衡量模型的分类效能。4、统计学方法统计分析软件采用SPSS 20.0,采用Cohen’s Kappa检验评估分类的一致性,包括阅片者与相对金标准间的一致性,原始报告与相对金标准的一致性,采用准确率来评估每位阅片者分期的准确性。Kappa值的评价标准参考Altman指南,Kappa值<0.4为一致性较差,0.4≤Kappa<0.75为一致性中等,Kappa≥0.75为一致性较好,P<0.05为差异有统计学意义。通过接收者操作特征曲线(ROC)分析和ROC曲线下面积(AUC)来衡量模型分类器对尘肺分期的类别进行分类的效能。二、研究结果1、不同阅片者对《GBZ 70-2015职业性尘肺病的诊断》标准的理解及掌握不同,做出的诊断不同,存在差异性,原始报告Kappa为0.583,一致性中等;R1(低年资医师)与相对金标准Kappa值0.745,一致性中等;R2、R3(中、高年资医师)与相对金标准的Kappa分别为0.836、0.896,一致性较好;二分类方法:原始报告Kappa为0.599,一致性中等,R1与相对金标准Kappa为0.714,一致性中等;R2、R3与相对金标准的Kappa分别为0.819、0.897,一致性较好,以上结果P值均<0.001。差异性主要集中在正常/Ⅰ期;Ⅰ期/Ⅱ期。对比各期之间差异性较大的影像特征的符合率中,其影像特征特主要体现在Ⅰ期及Ⅱ期的小阴影形态、总体密集度及肺区分布,其中符合率最低的为小阴影形态,主要体现在低、中年资医师在Ⅰ期及Ⅱ期的判定,符合率分别为43.30%、54.10%。2、基于深度学习的端到端自动尘肺分类的模型构建方面,端到端四分类中ResNet50单模型宏查准率、宏查全率、宏综合分类率、微平均分别为0.83、0.82、0.82、0.82;ResNet101单模型宏查准率、宏查全率、宏综合分类率、微平均分别为0.79、0.78、0.77、0.77;DenseNet单模型宏查准率、宏查全率、宏综合分类率、微平均分别为 0.81、0.80、0.80、0.80。ResNet50 模型显示 0、Ⅰ、Ⅱ、ⅢI各分类的查准率为0.91、0.84、0.86、0.72;查全率分别为1.0、0.80、0.60、0.90;综合分类率分别为0.95、0.82、0.71、0.80;模型整体效能的指标:受试者操作特征曲线下面积(AUC)微平均、宏平均值分别为0.93、0.94。Resnet101模型显示0、Ⅰ、Ⅱ、ⅢI期各分类的查准率为0.95、0.71、0.64、0.86;查全率分别为0.95、0.85、0.70、0.60;综合分类率分别为 0.95、0.77、0.67、0.71;模型整体效能的指标:受试者操作特征曲线下面积(AUC)微平均、宏平均值分别为0.92、0.94。DenseNet 模型显示 0、Ⅰ、Ⅱ、Ⅲ 期各分类的查准率为 1.0、0.75、0.67、0.83;查全率分别为0.90、0.75、0.80、0.75;综合分类率分别为0.95、0.75、0.73、0.79;模型整体效能的指标:受试者操作特征曲线下面积(AUC)微平均、宏平均值分别为0.94、0.95。对比以上3种模型的观察指标,结果表明,DenseNet模型效能最优,其在0期及Ⅲ期的分类效果较好,在Ⅱ期的分类效果还有待优化。三、结论1、不同阅片者对尘肺诊断标准的掌握以及熟练程度不同,对尘肺影像特征的感知不同,诊断尘肺分期类别存在差异性。2、临床工作中对尘肺分类评估的可靠性一般,有一定的限制,临床需要一个一致性较高的分类方法,可通过专门开发基于《GBZ 70-2015职业性尘肺病的诊断》标准的自动尘肺分类的工具,排除主观因素的干扰,提高准确率,以便更准确的判读尘肺分期类型。3、基于深度学习的端到端自动尘肺分类方法可以从一定量的训练数据中有效的识别基本影像征象,区分四个不同尘肺类别。整体上,ResNet50与DenseNet宏平均值及微平均值均大于0.80,表明模型整体分类效能较好,其中ResNet50受试者操作特征曲线下面积(AUC)微平均、宏平均分别为0.93、0.94;DenseNet受试者操作特征曲线下面积(AUC)微平均、宏平均分别为0.94、0.95。DenseNet模型的整体分类效能最优,为较适合的尘肺分类模型,有望辅助影像科医生对尘肺进行分期诊断,减少漏诊、误诊率,提高准确率。