论文部分内容阅读
背景与目的:结直肠癌(colorectal cancer,CRC)是世界范围内常见的恶性疾病。在我国,每年约有37万CRC新发病例和19万相关死亡病例,占所有癌症死亡的第五位。大多数CRC始于腺瘤性息肉的恶性转化,这一过程平均至少需要10年时间,因而借助有效的筛查手段可以实现CRC的良好预防。结肠镜检查作为首选的CRC筛查手段,可以早期发现并摘除息肉,显著降低CRC的发病率和死亡率。然而受到诸多因素的影响,传统结肠镜下结直肠息肉的漏诊率总体达22%。因此,通过开发新技术——人工智能(artificial intelligence,AI)辅助诊断技术以改善结肠镜下息肉检测成为内镜研究领域的新热点。本研究即围绕AI辅助结肠镜下息肉检测,从方法学探索、全新系统构建与初步验证以及实时临床试验三部分展开研究,以期实现AI辅助息肉检测系统的自主开发和有效性验证,为结肠镜下息肉检测提供高效的诊断手段。方法:本研究的第一部分为AI辅助结肠镜下息肉检测的方法学探索。主要采用深度学习方法,基于Faster R-CNN算法,初步构建AI辅助结肠镜下息肉检测系统。并按训练集大小和难度设置五个试验组:试验1、2、3、4分别含1000、2000、4000、6000个训练样本,试验5在6000个训练样本的基础上增加选取难样本的概率;五个试验组的测试集均相同。在这些试验组中,评估该系统的图片分类指标(如敏感度、特异度等)和目标检测指标(如召回率、精确率等)。本研究的第二部分为AI辅助结肠镜下息肉检测系统的有效性初步验证。该部分研究中使用的息肉检测系统是在第一部分方法学探索的基础上进行革新,采用深度学习方法,基于RestinaNet网络模型开发的全新AI辅助实时息肉检测系统。研究通过自身对照的研究设计,比较同一批患者常规结肠镜检查与AI系统结肠镜视频检测的息肉检测结果,初步验证该系统的有效性。研究的主要结局指标为息肉检出率(polyp detection rate,PDR),次要结局指标包括单次结肠镜检查息肉检出数(polypspercolonoscopy,PPC)和单次结肠镜检查非首枚息肉检出数(polypsper colonoscopy-plus,PPC-Plus)。本研究的第三部分为AI辅助结肠镜下息肉检测系统的实时应用临床试验。使用的系统为第二部分中全新开发的AI辅助实时息肉检测系统。通过开展前瞻性、多中心、随机对照临床试验,比较常规结肠镜检查组与AI辅助结肠镜检查组的息肉检测结果,评估该AI辅助息肉检测系统在真实结肠镜检查中的安全性和有效性。研究的主要结局指标为PDR,次要结局指标包括PPC和PPC-Plus,以及阳性患者平均息肉检出数(polyps per positive patients,PPP)。结果:在方法学探索研究中,我们收集了六家内镜中心的真实结肠镜检查图片作为素材(共5844例结直肠息肉患者的10061张结肠镜检查图片,其中6000张作为训练集,4061张作为测试集),基于Faster R-CNN算法,初步构建了 AI辅助结肠镜下息肉检测系统。在深度学习过程中比较不同训练集下的系统测试结果,图片分类结果显示,试验组1~5的敏感度分别为90.1%、93.3%、93.3%、93.3%和93.5%,各试验组之间存在显著差异(P<0.001),其中试验2~5的敏感度显著高于试验1(Ps<0.00625)。各组之间特异度和阳性预测值均无显著差异,而阴性预测值差异显著(P<0.001),主要表现为试验2~5的阴性预测值显著高于试验1(Ps<0.00625)。结合操作者特性曲线得知,当训练样本量为1000时,AUC值为0.941,增加样本量至2000时,AUC提升了 0.02,此后继续增加样本量至6000,AUC提升不超过0.01;在样本量不变的基础上增加训练难度,AUC提高了 0.004,达到0.973。除此之外,目标检测结果显示,试验组1~5的召回率分别为73.6%、79.8%、79.5%、79.8%和83.3%,各试验组之间存在显著差异(P<0.001),其中试验2-4的召回率显著高于试验1(Ps<0.00625),试验5的召回率显著高于试验1~4(Ps<0.00625)。各组之间的精确率差异显著(P<0.001),其中试验3和试验5的精确率显著高于试验2(Ps<0.00625),试验4的精确率显著高于试验1和试验2(Ps<0.00625)。随着训练样本量增多和难度增大,F1分数和mAP均逐渐升高。基于方法学探索的经验,我们全新开发了基于RestinaNet网络模型的AI辅助实时息肉检测系统,与之前系统不同之处在于,新系统可进行实时内镜图像分析,且加强了对微小息肉甚至成像不完整息肉的检测。通过使用大量真实的结肠镜检查视频(共117048帧图像)进行系统训练和测试,系统的召回率达81.9%,精确率达93.4%。在自身对照研究中,共纳入了 764名研究对象进行息肉检测。AI系统检测的PDR显著高于常规结肠镜检查(45.5%vs35.5%,P<0.001),且PPC(枚1.1枚 vs 0.7 枚,P<0.001)和 PPC-Plus(0.6 枚 vs 0.4 枚,P<0.001)也显著较高。在息肉特征方面,AI系统检测所检出息肉的位置分布与常规结肠镜检查相似,但检出了更多的微小息肉和扁平息肉。进一步对不同水平的结肠镜检查者进行了PDR的亚组分析发现,不论是对于低年资检查者(43.9%vs34.2%,P<0.001)还是高年资检查者(47.6%vs37.0%,P<0.001),AI检测系统的PDR均显著高于常规结肠镜检查。在AI辅助息肉检测系统实时应用的随机对照研究中,共纳入了 2352名研究对象,其中常规结肠镜检查组1175人,AI辅助结肠镜检查组1177人。研究期间未发生任何与系统使用相关的不良事件。两组患者在一般临床特征(性别、年龄、BMI、腰围)、主诉和结肠镜检查相关指标(麻醉肠镜占比、BBPS评分、进镜时间、退镜时间)方面无显著差异。AI辅助组的P D R较常规检查组提高了 2.6%(3 8.8%vs36.2%,P=0.183),PPC-Plus 显著高于常规检查组(0.5 枚 vs0.4 枚,P<0.05),在PPP和PPC上也有提升的趋势。在息肉特征方面,与常规结肠镜检查相比,AI系统检出了更多的Ⅱa型息肉。进一步分析活检息肉的病理结果发现,AI辅助结肠镜检查检出息肉的病理类型组成与常规结肠镜检查相一致,均检出了更多的腺瘤性息肉。此外,分别对各内镜中心的结果进行分析发现,对于浙江大学宁波医院,AI辅助组的PDR以及PPC和PPC-Plus均显著高于常规检查组;对于浙江省余姚市人民医院和三门县人民医院,AI辅助组的PPP和PPC-Plus均显著高于常规检查组;其余中心无显著效应。结论:方法学探索研究初步构建了 AI辅助结肠镜下息肉检测系统,随着训练样本量增大和难度增加,系统性能得到提升,敏感度最高达93.5%,召回率达83.3%。在自身对照研究中,全新开发的AI辅助实时息肉检测系统可以显著改善结肠镜检查的息肉检测结果,发现更多的阳性患者和结直肠息肉,且在微小息肉和扁平息肉的检测方面具有明显优势。此外,AI系统对息肉检测的改善作用对于任何水平的结肠镜检查者来说都是显著的,有助于减少对检查者的依赖性。AI辅助息肉检测系统的实时应用可在一定程度上改善结直肠息肉检测结果,使息肉检出率提高了 2.6%,显著增加结肠镜检查中非首枚息肉的检出,且能发现更多的轻微隆起型息肉。研究期间未发生与系统使用相关的不良事件。由此证明,实时应用AI辅助检测系统进行息肉检测是安全面有效的。总而言之,本研究通过方法学探索、全新系统构建与初步验证以及实时临床试验三部曲,验证了我们自主开发的AI辅助结肠镜下息肉检测系统的安全性和有效性,为该系统的进一步临床推广应用提供了证据支持。