论文部分内容阅读
脑胶质瘤是中枢神经系统最常见的恶性肿瘤,在各种胶质瘤亚型中,胶质母细胞瘤(Ⅳ级)的增殖性和侵袭性强,预后最差,患者5年平均生存率低于10%,而较低级别胶质瘤(LGG,Ⅱ和Ⅲ级胶质瘤)的生存预后情况复杂多样,2016年世界卫生组织(WHO)将分子诊断标准(如IDH突变状态,1p19q染色体共缺失状态)加入胶质瘤分型中,与组织学分型一起共同构成了目前胶质瘤的诊断标准,多项研究表明,分子学分型较组织学分型对胶质瘤治疗效果及预后的判断具有更高的预测准确性。此外,随着分子生物学研究的进展,越来越多的基因及其表达产物被发现与胶质瘤的生长、增殖、治疗抵抗和预后明显相关,因此,探寻影响肿瘤发生、发展和预后的重要基因已成为目前肿瘤学研究的热点之一。胶质瘤干细胞(GSCs)具有肿瘤干细胞(CSCs)的特点,可明显影响胶质瘤的发生、发展、转移、复发、放化疗抵抗等。通过病理检测GSCs表面标记物是目前识别GSCs的主要手段,除此之外,GSCs表面标记物也被认为在肿瘤免疫治疗方面有着巨大的研究价值。既往研究表明:CD44、CD133、OLIG2及CCND2基因编码的蛋白分子可作为GSCs的特异性表面标记物,因此,本研究的目的之一即为评估这四种基因的表达与LGG患者的重要临床病理特征及预后的相关性。影像基因组学通过将影像组学技术与分子生物学技术有机结合,开拓了分子影像学研究的新领域,为本文提供了基本研究思路。机器学习算法的应用为影像组学研究中的重要一环,常见机器学习算法包括逻辑回归(Logistic regression,LR)、支持向量机(Support vector machine,SVM)、随机森林(Random Forest,RF)等,相同影像组学特征在应用不同机器学习算法时可能产生不同的预测效能。因此,本研究的另一目的是评估基于磁共振(MRI)图像的影像组学特征对LGG中GSCs表面标记物基因表达水平的预测能力,同时应用5折交叉验证的方法展示三种机器学习分类器(LR、SVM及RF)的分类性能差异,以期为临床决策的制定和同领域研究者提供参考依据。第一部分探索肿瘤干细胞标记物基因CD44、CD133、OLIG2和CCND2在较低级别胶质瘤中的表达差异及预后价值背景和目的:既往研究表明CD44,CD133,OLIG2以及CCND2四种基因所编码的蛋白均可作为GSCs的表面标记物,本研究将基于生物信息学分析方法,探讨以上四种基因的表达与LGG患者的临床病理特征及生存预后之间的潜在联系。方法:研究基因的表达资料、病例的临床病理信息及生存预后信息均可从TCGA数据库和c Bioportal数据库下载获取。首先,分别分析四种基因在不同年龄、性别、肿瘤级别、IDH突变状态及1p19q共缺失状态之间是否存在表达差异;其次,运用单因素逻辑回归分别评估四种基因的表达量与LGG肿瘤级别、IDH突变状态及1p19q共缺失状态之间的潜在联系;再次,以基因表达量中位值为分界,将病例分为高表达水平组及低表达水平组,使用Kaplan-Meier生存分析及绘制生存曲线评估高低表达水平组之间整体生存(OS)率和无进展生存(PFS)率的差异,以上分析过程将分别运用在四种基因中;最后,运用单因素及多因素COX比例风险回归模型分别评估四种基因对LGG患者的潜在预后价值。结果:1.经过筛选,共计505例病例被纳入研究,除年龄和性别外,CD44在不同肿瘤级别,IDH突变状态和1p19q共缺失状态中的表达量均有显著统计学差异(P值均小于0.05);除年龄和性别外,CD133在不同肿瘤级别,IDH突变状态和1p19q共缺失状态中的组间表达存在显著统计学差异(P值均小于0.05);OLIG2在除性别和肿瘤级别外的不同年龄,IDH突变状态和1p19q共缺失状态的组间表达存在显著统计学差异(P值均小于0.05);CCND2在除性别和1p19q共缺失状态外的不同年龄,肿瘤级别和IDH突变状态的组间表达存在显著统计学差异(P值均小于0.05)。2.单变量逻辑回归分析显示,CD44的表达量分别与肿瘤级别、IDH突变状态及1p19q共缺失状态间存在显著相关性,其机会比(OR)(95%置信区间(CI))及P值分别为:1.016(95%CI:1.008~1.025),P<0.01;0.986(95%CI:0.978~0.993),P<0.01;0.952(95%CI:0.936~0.967),P<0.01。CD133的表达量也与分别肿瘤级别、IDH突变状态及1p19q共缺失状态存在显著相关性,其OR值(95%CI)及P值分别为:1.477(95%CI:1.248~1.747),P<0.01;0.597(95%CI:0.510~0.700),P<0.01;0.560(95%CI:0.431~0.747),P<0.01。OLIG2的表达量与肿瘤级别无显著相关性(P>0.05),但与IDH突变状态及1p19q共缺失状态存在显著相关性,其OR值(95%CI)及P值分别为:1.024(95%CI:1.019~1.029),P<0.01;1.004(95%CI:1.001~1.007),P<0.01。CCND2的表达量与肿瘤级别、IDH突变状态及1p19q共缺失状态之间存在显著相关性,其OR值(95%CI)及P值分别为:1.012(95%CI:1.005~1.019),P<0.01;0.993(95%CI:0.987~0.998),P<0.05;0.991(95%CI:0.984~0.999),P<0.05。3.Kaplan-Meier生存分析及生存曲线显示:LGG患者在CD44,CD133,OLIG2,CCND2的高表达水平组与低表达水平组间的OS率和PFS率之间均存在显著统计学差异,经Log-rank检验P值均小于0.05。4.在单因素COX比例风险回归分析中,CD44、CD133、OLIG2和CCND2的表达量都与患者的整体生存预后显著相关;它们的风险比(HR)(95%CI)值及P值分别为:1.012(1.007~1.016),P<0.01;1.137(1.089~1.187),P<0.01;0.993(0.990~0.997),P<0.01;1.005(1.002~1.009),P<0.01。然而,在结合LGG患者的年龄、性别、肿瘤级别、IDH突变状态,1p19q共缺失状态的多因素COX比例风险回归模型分析中,除了患者的年龄、肿瘤级别、IDH突变状态及1p19q共缺失状态外,四种基因中只有CD44为LGG患者整体生存预后的独立风险因子,它的HR(95%CI)及P值分别为:1.007(1.002~1.013),P<0.05。结论:四种肿瘤干细胞标记物基因CD44、CD133、OLIG2和CCND2的表达水平可显著影响LGG的肿瘤性质及患者的生存预后,其中CD44为LGG患者整体生存预后的独立风险因子。第二部分应用多种机器学习方法评估基于T2FLAIR图像的影像组学特征对较低级别胶质瘤中CD44表达水平的预测价值背景和目的:既往研究表明,利用影像组学方法可对胶质瘤的分子分型进行有效预测。因此,本研究将评估基于T2加权液体衰减反转恢复(T2FLAIR)序列的影像组学特征对LGG中CD44表达水平的预测价值,同时,我们将展示三种常见机器学习分类器LR、SVM和RF的性能优劣。方法:共计108例符合筛选条件的病例被纳入研究。我们以上一章病例中CD44表达量的中位值为界,将这108例病例分为高表达水平组和低表达水平组,建立影像组学预测标签。经过对图像感兴趣区间(ROI)的勾画、影像组学特征提取以及最小绝对收缩和选择算法(LASSO)和多变量逻辑回归分析(MLR)行特征降维后我们可获得最终的建模特征,然后,基于这些特征分别用LR,SVM和RF三种方法建立模型对CD44表达水平的高低进行预测,并使用5折交叉验证方法对模型性能进行评估。最后,我们选择应用逻辑回归分类器进一步对比单纯影像组学模型和临床-影像组学联合模型的预测性能。通过绘制受试者工作特征(ROC)曲线及计算曲线下面积(AUC),敏感性,特异性,准确性,阳性预测值,阴性预测值对模型进行评估。结果:经过特征降维后,共有9个特征用于预测模型的构建,它们分别是:“original first order Minimum”,“wavelet-HLL first order 90Percentile”,“wavelet-LHL gldm Dependence Variance”,“wavelet-LHL first order 10Percentile”,“wavelet-HLH glrlm Long Run Low Gray Level Emphasis”,“wavelet-HLH glszm Large Area High Gray Level Emphasis”,“wavelet-HHH glszm Gray Level Non Uniformity Normalized”,“wavelet-HHL ngtdm Strength”,“wavelet-LLL glcm Imc1”。通过5折交叉验证,三种分类器模型的平均AUC、敏感性、特异性、准确性、阳性预测值和阴性预测值分别为:LR:0.877,0.761,0.835,0.805,0.845,0.813;SVM:0.852,0.773,0.774,0.768,0.751,0.788;RF:0.811,0.674,0.752,0.722,0.700,0.724。此外,应用LR对比单纯影像组学模型和临床-影像组学联合模型对CD44表达水平的预测性能,结果显示两者间差异无显著统计学意义。结论:基于T2FLAIR图像的影像组学特征对较低级别胶质瘤中CD44的表达水平具有良好的预测价值。