论文部分内容阅读
第一部分基于深度学习的人工智能胸部CT肺结节检测软件效能的评估目的基于深度学习的人工智能在肺内结节检测领域发展迅速,对其效能进行验证是促进其应用于临床的前提。本研究旨在评估基于深度学习技术的人工智能软件在胸部计算机断层扫描(computed tomography,CT)恶性及非钙化结节检出中的价值。对象与方法由天津医科大学总医院自建胸部CT肺结节数据库中随机抽取200例胸部CT数据,包含病理证实的肺癌及随访结节病例,导入肺结节人工智能识别系统,记录软件自动识别结节情况,并与原始影像报告结果进行对比。影像报告由1名高年资医师在日常工作状态下对1名低年资医师的初始报告进行审核后完成。记录影像报告中非钙化结节的检测情况作为放射科医师的结节检测情况。由2名胸部影像专家在参考人工智能软件及影像报告结果的前提下,在横断面进行观察,确定可疑病灶位置后,参考多平面重建(MRP)、最大密度投影(MIP)、三维重建等结果来进一步确定标注结果与肺内结节的定义是否接近,从而做出判断,最终以2人达成的一致性结果作为真结节金标准,并记录结节的大小、位置及密度等特征。计算灵敏度、假阴性率及假阳性率评估人工智能软件及放射科医师的结节检测效能,应用McNemar检验确定二者灵敏度是否存在显著性差异,用Wilcoxon秩和检验来比较二者的假阳性率是否存在显著性差异。结果1.AI及放射科医师检出恶性肺结节的灵敏度皆为100%。2.AI总体肺结节检测灵敏度明显高于放射科医师(99.10%vs 43.30%,X2=483.20,P<0.001)。相对于医师,AI额外检测出的结节多为直径<5 mm及5 mm-10 mm的结节、实性及磨玻璃密度结节。对于亚实性结节,AI的检出率稍高,但检出率没有显著性差异。不同位置的结节,AI的检出率均高于放射科医师。3.AI的假阴性率为0.90%,共漏诊8例结节,均为<5 mm结节,放射科医师的假阴性率为56.69%,共漏诊504个结节,其中346个为<5 mm结节。4.200例胸部CT共包含非钙化结节889个,其中恶性结节133枚,小于5 mm结节442枚。AI的假阳性结节数为993个,假阳性率为每例CT 4.9个结节。若排除直径<5 mm的假阳性结节,其假阳性率降低为每例CT 1.5个。放射科医师的假阳性结节数为3个,假阳性率为每例CT 0.015个,且皆与血管结构相关。AI假阳性率明显高于放射科医师(4.9 vs 0.015),且差异具有统计学意义(P<0.05)。结论1.基于深度学习的AI检测软件能实现恶性肺结节的无漏诊检出。2.基于深度学习的AI检测软件比放射科医师有更好的灵敏度,在排除微小结节后可降低假阳性率。第二部分两种不同版本的基于深度学习的人工智能胸部CT肺结节检测软件效能的评估目的评估两种不同版本的人工智能软件对胸部CT恶性结节及非钙化结节的检测效能。对象与方法抽取第一部分中恶性组结节128例共133个。将128例图像分别导入两个不同版的人工智能软件,记录两个版本人工智能软件结节的检测情况。软件1基于三维-卷积神经网络(3D-convolutional neural network,3D-CNN),软件 2 在软件1的基础上增加训练集数量、加入深度残差网络(ResNet)并融合模型,软件2为软件1优化后的版本。金标准真结节的制定方法同前,并记录结节的位置、大小及密度。计算灵敏度、假阴性率及假阳性率评估两个版本人工智能软件的结节检测效能,应用McNemar检验确定二者灵敏度是否存在显著性差异,用Wilcoxon秩和检验来比较二者的假阳性率是否存在显著性差异。P值小于0.05,提示有统计学差异。结果1.软件2检测恶性结节的灵敏度稍高于软件1(100.00%vs 98.50%,P=0.500),但差异无统计学意义。2.软件2总体肺结节检测灵敏度明显高于软件1(99.18%vs 75.82%,X2=34.32,P<0.001)。相对于软件1,软件2额外检出的结节多为直径<5mm、5-10mm的结节,实性及磨玻璃密度结节,与胸膜相连、周围性、中心性的非钙化结节。对于>10mm及部分实性结节,软件2检出率稍高,但检出率没有显著性差异。对于肺门区结节,软件1和软件2皆能全部检出。3.软件1的假阴性率为24.18%,共漏诊148例结节,其中127个为<5 mm结节,软件2的假阴性率为0.82%,共漏诊5例结节,均为<5 mm结节。4.128例胸部CT共包含恶性结节133个。软件2假阳性率为每例CT 3.0个结节,假阳性结节数为606个。软件1的假阳性率为每例CT 1.1个结节,假阳性结节数为216个。软件2假阳性率高于软件1(3.0 vs 1.1),且差异具有统计学意义(P<0.05)。结论1.二个版本软件对恶性结节检测的灵敏度无显著性差异。2.优化后的版本对非钙化结节的灵敏度增高,但假阳性率也随之增加。