论文部分内容阅读
目的:探究基于ADC图的影像组学模型鉴别肝细胞癌与肝内胆管细胞癌的价值。资料与方法:收集2018年1月至2021年5月在汕头大学医学院第一附属医院首诊且病理证实的52例肝细胞癌(肝细胞癌组)和25例肝内胆管细胞癌(肝内胆管细胞癌组)患者的临床和影像资料。所有患者均行MRI检查。在52例肝细胞癌中,单发病灶39例,多发13例,男45例,女7例,年龄27~85岁,中位年龄61岁;在25例肝内胆管细胞癌中,单发病灶18例,多发7例,男13例,女12例,年龄43~78岁,中位年龄61岁。由1名影像科医师(医师1)利用3D Slicer软件(Version 4.10.2,www.slicer.org)在ADC图上对77个病灶的ROI进行勾画。软件自动提取病灶ROI内的影像组学特征,所有病灶提取的影像组学特征均按照Pyradiomics标准(https://pyradiomics.readthedocs.io/e n/latest/index.html#)统一分类和命名。间隔两周后,该医师随机抽取10个病例进行第二次ROI勾画,并3D Slicer软件自动提取影像组学特征。使用SPSSAU数据分析平台(h ttps://spssau.com/index.html)对该10个病例提取的特征数据进行对比分析,计算医师两次勾画得到特征的组内相关系数。由另一名影像科医师(医师2)对该10个病例进行独立ROI勾画,并3D Slicer软件自动提取影像组学特征。比较2名医师对该10例病灶勾画ROI的特征数值的差异,计算医师2与医师1之间的组间相关系数。比较肝细胞癌组和肝内胆管细胞癌组ADC影像组学特征的差别。各影像组学特征的正态分布检验采样单样本Kolmogorov-Sirmov检验。符合正态分布的影像组学特征比较采样独立样本t检验;不符合正态分布的影像组学特征比较采用Mann-Whitney U检验。对筛选出有显著差异的影像组学特征进行多重共线性检验。再应用R语言统计作图软件(Version 4.1.1,www.r-project.org)中的最小绝对收缩与选择算子算法(least absolute shrinkage and selection operator,LASSO)剔除重复冗余的特征。从而筛选出一系列有鉴别意义的影像组学特征。对筛选出有鉴别意义的影像组学特征建立诊断预测模型。使用R语言统计作图软件建立“支持向量机”、“随机森林”及“Logistic回归”三种影像组学预测模型。模型建立过程按照7:3的比例随机划分训练集和测试集,即训练集55例,测试集22例。通过受试者工作特征曲线的曲线下面积来评估模型的鉴别效能。使用Python程序设计语言(https://www.python.org/)对随机森林模型中各特征进行重要性排序,计算各个特征在模型中的贡献大小。结果:由一名影像科医师运用3D Slicer软件对77个病灶进行影像特征提取,在每个病例的3D ROI中均提取了1130个特征。医师1随机对病例(n=10)进行两次特征提取。两次特征的相关系数范围为0.871~1.000。医师1和医师2对该10例病灶提取的特征相关系数范围为0.921~1.000。医师提取特征组内和组间相关系数均大于0.75,特征提取具有良好的一致性,研究的可重复性较好。1130个影像组学特征经过Kolmogorov-Sirmov检验,得出在两组病例数据中均服从正态分布的特征数为251个,非正态分布的有879个。251个正态分布特征的经独立样本t检验处理。879非正态分布的特征用Mann-Whitney U检验处理。两种检验结果筛选共得到133个有显著差异的特征。多重共线性检验显示133个特征之间存在明显多重共线性。运用LASSO算法将133个特征中重复冗余的特征剔除后,得到了7个最有意义特征:wavelet-LLH-firstorderSkewness,original-shape-Sphericity,wavelet-LLL-firstorder-90Percentile,wavelet-LHHfirstorder-Mean,original-firstorder-Kurtosis,log-sigma-3-0-mm-3D-firstorder-90Percentile,wavelet-LHL-firstorder-90Percentile。用R语言统计作图软件对7个最有意义影像组学特征建立预测模型。支持向量机模型训练集和测试集的受试者工作特征曲线的曲线下面积分别为0.941(95%CI 0.886-0.997)和0.933(95%CI 0.830~1.000);随机森林模型训练集和测试集的受试者工作特征曲线的曲线下面积分别为1.000(95%CI 1.000~1.000)和0.848(95%CI 0.680~1.000);Logistic回归模型训练集和测试集的受试者工作特征曲线的曲线下面积分别为0.941(95%CI 0.886~0.997)和0.848(95%CI 0.680~1.000)。在7个特征中,对随机森林模型贡献最大者为wavelet-LLH-firstorder-Skewness。结论:基于ADC图提取肝细胞癌和肝内胆管细胞癌影像组学特征具有可行性,利用该影像组学特征建立的支持向量机、随机森林、Logistic回归预测模型具有较高的诊断效能。基于ADC图的影像组学具有鉴别肝细胞癌和肝内胆管细胞癌的潜在临床应用价值。