论文部分内容阅读
背景:高级别浆液性卵巢癌(High-grade Serous Ovarian Cance,HGSOC)是女性生殖系统最致命的原发性恶性肿瘤。手术联合顺铂为主的化疗是卵巢癌的一线治疗手段,但约80%患者2年内将出现复发,5年存活率仅在30%左右。目前已知致使卵巢癌患者之所以复发和死亡,主要是因为铂类耐药。因此准确预测化疗疗效并探讨其机制,将为卵巢癌精准治疗的开展和靶向药物的研发提供线索。近年来,随着计算机技术、电子工程和统计学的发展,人工智能(AI,Artificial Intelligence)在解决医学领域的复杂问题中取得突破性进展。其中,卷积神经网络(CNN,Convolutional Neural Network)作为AI的典型代表,能从海量医学图像中自动学习特征表达,在疾病诊断、分级、预后预测等方面表现出极大的优势。但是现有CNN模型存在“黑盒”困境,暨缺少相关方案来解释模型的因果关系。这是一个长期困扰深度学习的难题,也导致这类系统很难得到医生的信任和接纳。针对此在卵巢癌研究方面,成功构建了基于病理图像的化疗耐药预测深度学习LASSO模型,并创新性地通过整合模型分析了病理组学特征与肿瘤微环境组分的相关性。方法:1、数据下载:从TCGA数据库和附属医院分别获取卵巢癌样本的WSI(Whole Slide Image,全视野数字切片)及相对应的临床信息,包括病理组学、生存状态、生存时间和化疗耐药信息等;2、图像预处理:将WSI图像切割成了300*300像素的色块,删除无效色块;3、深度学习(Deep Learning,DL):根据患者临床信息,分别以正常、耐药和敏感进行分类,构建癌与非癌以及耐药与敏感的色块分类CNN模型,同时提取色块中的1024个组织学特征值(Dimensional Histologic Features,DHFs);4、机器学习(Machine Learning,ML)模型构建与验证:使用五种ML算法来优化个体分类模型,分别是Lasso(LA)、Adaboost(AD)、naive Bayes(NB)、XGBoost(XG)、randomforest(RF),模型比较并确定最优ML模型,根据最优模型公式获得ML分类评分(Score),并且在验证和测试数据集中评估了模型的泛化性能;5、化疗耐药评分的临床因素相关分析:获得了327例TCGA的HGSOC患者相应的临床资料(年龄、病理分级和分期)。根据最优模型计算每个HGSOC患者的化疗耐药评分,将患者分为耐药组或敏感组,分析其与临床特征之间的关系;6、最优模型的预测机制分析:327例TCGA的HGSOC患者免疫肿瘤微环境与化疗耐药评分之间的关系;7、关键特征与淋巴细胞浸润的相关性分析:最优模型公式中各特征与淋巴细胞浸润之间相关性分析,筛选出关键特征,并进行病理分析验证。结果:1、CNN从不同类型的色块中提取组织学特征:将327名TCGA的卵巢癌患者分为训练集90个(30个正常组织、30个化疗敏感和30个化疗耐药)和验证集237个(43个正常组织、139个化疗敏感和55个化疗耐药),结果显示癌与非癌色块的受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)曲线下面积(AUC)值为0.995;区分化疗敏感和化疗耐药色块的ROC曲线下面积(AUC)为0.662;2、ML模型准确识别肿瘤区域:根据卵巢癌和非癌的WSI组之间进行DHFs差异分析,获得738个显著差异的DHFs。采用五种ML算法构建分类模型,结果显示五种ML算法都具有识别肿瘤WSI的高性能(AUC>0.90)。其中,LA模型表现出最好的分类性能,其AUC为0.993;3、LASSO回归构建了一个用于化疗耐药预测的最佳ML模型:根据化疗敏感和化疗耐药WSI之间进行DHFs差异分析,得到85个显著差异的DHFs。在五种ML算法中,总体表现最好的是LA模型。在验证组中,AUC值为0.760,在独立测试数据集中,AUC值为0.746;4、化疗耐药评分与临床特征的关系:从TCGA数据库中收集了临床数据(年龄、病理分级和病理分期),研究显示,根据LA模型的化疗耐药评分将患者分为耐药组和敏感组,分组患者与肿瘤分级(卡方=10.644,p=0.014)和病理分期(卡方=11.008,p=0.012)显著相关。多元cox分析(单因素和多因素)表明,化疗耐药评分在TCGA患者中与OS和DFS相关(HR>1,p<0.0001)。生存分析表明,耐药组患者相比敏感组患者的OS和DFS都较差(p<0.05);5、化疗耐药评分与肿瘤微环境的关系:通过相关性分析,结果显示化疗耐药评分与沉默突变率和SNV(Single Nucleotide Variant,单核苷酸变异)新抗原之间呈显著负相关;6、特征TZ0279与患者色块中淋巴细胞浸润相关:结果显示,TZ0279与淋巴细胞浸润分数呈正相关。比较了耐药和敏感患者WSI的TZ0279值,发现敏感患者中的TZ0279机器学习评分值明显高于耐药患者。病理专家随机从临床样本中选取了180个色块计算淋巴细胞浸润数目,TZ0279的机器学习评分数值与淋巴细胞浸润数目呈正相关。结论:1、利用CNN构建两个基于病理图像的神经网络。分别建立区分肿瘤和非肿瘤组织的模型和预测卵巢癌化疗耐药和敏感的模型,并且提取出色块中的1024个组织学特征值;2、通过五种ML模型的比较,LA模型表现出最好的分类性能。并且根据LA机器学习模型公式计算出化疗耐药评分,将患者分为耐药组和敏感组;3、生存分析表明,耐药组患者相比敏感组患者的OS和DFS都较差(p<0.05);4、化疗耐药评分与沉默突变率和SNV新抗原之间呈显著负相关;5、特征TZ0279的数值与淋巴细胞浸润数目呈正相关。