论文部分内容阅读
前言:胃癌是威胁人类健康的重要疾病之一,根据国际癌症机构(International Agency for Research on Cancer,IARC)的研究结果,2020年全球新发病例约108万,占全球所有恶性肿瘤的5.6%,胃癌死亡病例在全世界大约76.9万(占7.7%)。随着对胃癌的认识不断加深、癌症筛查的实施、诊断和治疗方案的不断改进,胃癌的发病率和死亡率在世界范围内已有下降趋势。但是,随着人口的增长及老龄化,胃癌的疾病负担依然严重。尽管手术、化疗、靶向治疗、免疫治疗等方法的应用,进展期胃癌患者的预后仍较差。因此寻找影响胃癌预后的关键基因及治疗靶点尤为重要。随着基因组学技术的发展,大量的肿瘤相关生物数据的出现,肿瘤生物信息学可以通过对癌症基因表达谱进行分析,对癌症发病机制进行分析。通过鉴定肿瘤生物标志物与肿瘤预后的关系,使得寻找可以作为癌症诊断、预测、预后及治疗的分子标志物变为可能,而且意义尤为重要。然而癌症作为一个多基因参与的复杂疾病,单个基因纵然可以作为潜在的预后标志物,但具有一定的局限性。基于对癌症多组学大数据的分析,利用有效的生物信息学分析方法可以发现多个基因组合的预后模型,这些模型可以应用于癌症病人的诊断、预后评估和治疗效果评价等方面。目的:应用生物信息学方法分析TCGA和GSE62254数据集,基于预后相关基因构建胃癌预后风险模型,分析预后风险模型与临床病理因素的关系,并针对预后风险模型中的基因CTNNAL1的表达特征与临床病理因素的关系和预后进行深入分析。研究方法:1、采用生物信息学方法分析TCGA中胃癌数据集和GSE62254数据集,发现了其共同的预后相关基因,利用R语言cluster Profiler包对预后相关基因进行功能富集分析。基于Lasso(the least absolute shrinkage and selection operator)-Cox算法,构建包含六个基因的预后风险模型。利用时间依赖的受试者工作特征曲线(time-dependent receiver operating characteristic curve,t ROC)评估预后风险模型。分析预后风险模型与临床病理因素的关系,基于多因素风险回归分析,构建包含预后风险模型和多个临床病理因素的诺模图(nomogram)。2、在TCGA数据库中下载33个肿瘤类型基因表达谱数据,分析CTNNAL1m RNA的表达与肿瘤患者预后的关系;分析TCGA数据库中的胃癌表达数据集及临床病理因素,根据CTNNAL1m RNA表达量的中位值将患者分为两组,通过卡方检验,比较高表达组与正常对照组织之间CTNNAL1表达水平的差异,分析各临床病理因素分组之间CTNNAL1m RNA的表达差异。利用R语言survminer包确定GSE62254胃癌数据集中CTNNAL1m RNA表达与患者预后的最佳cutoff值。然后将GSE62254中的300例胃癌患者根据最佳cutoff值分成CTNNAL1m RNA高表达和低表达两组。利用Kaplan-Meier法绘制生存曲线,log-rank检验比较两组之间的生存率;利用人类蛋白图谱HPA(the Human Protein Atlas)数据库分析CTNNAL1基因在人体各正常组织中的表达水平,利用单细胞测序数据分析CTNNAL1基因在细胞水平的表达特征;进一步在GSE134520(胃单细胞测序数据集)中分析CTNNAL1在胃组织中不同种类细胞中的表达;分析CTNNAL1基因的表达与间质细胞数量的相关性;通过基因集富集分析(GSEA,Gene set enrichment analysis)和蛋白蛋白相互作用(PPI,protein-protein interaction)网络预测CTNNAL1相关功能。3、免疫组化检测209例胃癌及其非癌胃粘膜组织中CTNNAL1蛋白的表达及178例胃癌组织中E-cadherin蛋白的表达,分析其与临床病理因素的关系和意义以及两者的相关性,蛋白表达与临床病理因素的关系采用卡方检验和kendall tau-b等级相关进行分析。结果:1、通过单因素Cox分析,TCGA胃癌数据集中与胃癌预后相关的基因共有1561个(P<0.05),其中风险比(Hazard ratio,HR)>1的基因共1137个,HR<1的基因有424个。GSE62254数据集中与胃癌预后相关的基因共有5949个(P<0.05),其中HR>1的基因有2913个,HR<1的有3036个。两个数据的预后相关基因共同的不良预后基因457个,良好的预后因素171个。不良预后因素KEGG信号通路明显富集在PI3K-Akt信号通路、Rap1信号通路、黏着斑、Ras信号通路、丝裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK)信号通路、基底膜-受体相互作用等生物学通路。2、将TCGA和GSE62254中分析所得的共有预后相关基因代入Lasso-Cox回归模型,成功构建包含六个基因的预后风险模型,这六个基因分别是富脯氨酸蛋白15样(PRR15L,proline rich 15 like)、SP6转录因子(SP6,Sp6 transcription factor)、包含C2结构域蛋白8(CPNE8,copine 8)、神经菌毛素1(NRP1,neuropilin 1)、血小板源性生长因子样受体(PDGFRL,platelet derived growth factor receptor like)和α连环蛋白样1(CTNNAL1,catenin alpha like 1)。生存分析结果表明,风险评分高的胃癌患者生存率显著低于低风险组的患者。该模型预测的5年生存率AUC为0.754,结果表明该模型具有较好的预后评判价值。并在GEO数据库中验证了基于6个基因构建的预后风险模型具有一定的预后评判价值。3、根据胃癌预后风险模型评分分组,高风险组组织学分级更高,弥漫型胃癌中风险评分高于肠型胃癌Lauren分型,随着TNM分期的增加,高风险组的比例上升。4、将胃癌预后风险模型评分和临床病理因素(年龄、性别、组织学分级、lauren分型、T分期、N分期、M分期、MSI状态和是否进行放射治疗)纳入多因素Cox风险比例回归分析,建立了定量的诺模图用于预测胃癌患者的个体化生存时间。5、通过单因素Cox分析CTNNAL1m RNA表达与不同肿瘤类型的预后关系,发现CTNNAL1不仅在胃癌中与不良预后相关,在肾乳头状癌和低级别胶质瘤等也与肿瘤患者的不良预后有关。而在弥漫大B淋巴瘤和胸腺瘤等中,则与预后较好相关。6、HPA数据库显示CTNNAL1在人正常的肾上腺、卵巢、甲状腺、睾丸、肺脏、心肌中表达量较高。CTNNAL1基因在单细胞水平上,具有较低的细胞特异性,其中在滋养层细胞中表达量最高。内皮细胞和间质细胞中CTNNAL1的表达次之。胃单细胞测序数据集GSE134520的分析结果显示,CTNNAL1在多种细胞中存在表达,其中在内皮细胞和肿瘤细胞中表达较高。CTNNAL1基因表达与间质评分、肿瘤相关成纤维细胞数量和内皮细胞数量成正比。7、TCGA数据库中CTNNAL1 m RNA表达,在Lauren分型中,弥漫型胃癌的高表达率明显高于肠型胃癌(P=0.014)。组织学分级G3组中CTNNAL1 m RNA的高表达率高于G2组和G1组(P=0.023),CTNNAL1m RNA表达在间质表型胃癌高于上皮表型(P<0.001)。GSE62254中CTNNAL1 m RNA高表达组胃癌患者生存率低于CTNNAL1m RNA低表达组(P<0.001),CTNNAL1在弥漫型胃癌中的表达率明显高于肠型胃癌(P=0.010)。亚洲癌症研究组织(ACRG,Asian Cancer Research Group)胃癌分子分型中,MSS/EMT亚型CTNNAL1的m RNA表达高于其他亚型(P<0.001)。GSEA分析显示CTNNAL1基因与EPITHELIAL_MESENCHYMAL_TRANSITION(上皮间质转化)、MYOGENESIS(肌细胞生成)和TGF_BETA_SIGNALING(转化生长因子-β)信号通路相关。PPI网络分析显示CTNNAL1基因与细胞黏附、黏着连接等功能相关。8、免疫组织化学染色结果显示,胃癌组织中CTNNAL1蛋白高表达率显著高于非癌胃粘膜组织。CTNNAL1蛋白表达与胃癌组织学分级成弱等级相关(r=0.146,P=0.026)。Lauren分型中,弥漫型胃癌中CTNNAL1的表达显著高于肠型胃癌(P=0.008)。E-cadherin的缺失率在组织学分级G3组高于G1组和G2组,且与组织学分级呈弱等级相关(P<0.001,r=0.327)。Lauren分型中,弥漫型胃癌中E-cadherin的缺失率显著高于肠型胃癌(P<0.001)。但是,161例胃癌组织中CTNNAL1表达与E-cadherin表达未见明显相关性(P>0.05)。结论:1、本研究基于TCGA胃癌数据集和GSE62254数据集,得到了共同的预后不良相关基因457个,良好的预后基因171个。其中不良预后基因显著富集在PI3K-Akt信号传导通路、细胞外基质黏附等与癌症发生发展密切相关的通路。采用Lasoo-Cox回归模型,利用TCGA胃癌数据集,基于筛选得到的预后相关基因,构建了基于六个基因的胃癌预后风险模型。通过在多个GEO数据集的验证,证实该模型中的基因具有良好的预后预测价值。利用TCGA胃癌数据集中的临床病理资料和预后风险模型,构建了预测胃癌患者预后的诺模图。2、CTNNAL1基因与多种肿瘤的预后密切相关,有可能成为肿瘤预后评估的因子;CTNNAL1基因在多种组织中普遍表达,在单细胞层面,CTNNAL1基因在成间质细胞/成纤维细胞和内皮细胞表达较高。CTNNAL1在间质细胞/成纤维细胞和内皮细胞中的较高表达与胃癌不良预后相关,可能提示肿瘤微环境中成纤维细胞和/或内皮细胞的增多导致胃癌不良预后。3、胃癌组织中CTNNAL1的蛋白表达显著高于非癌胃粘膜组织;CTNNAL1在不同组织学类型的胃癌组织中表达具有异质性,CTNNAL1高表达与弥漫型胃癌和组织学分级相关。