论文部分内容阅读
目的:利用生物信息学的方法,对癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库中与结直肠癌有关的自噬相关基因(autophagy-related genes,ARGs)进行数据挖掘,探索ARGs与结直癌患者预后的关系,基于ARGs构建结直肠癌患者预后预测模型,用于评估结直肠癌患者的预后及疗效。方法:1.分别从TCGA数据库和人类自噬数据库(Human Autophagy Database,HADb)下载了结直肠癌的所有转录组谱和自噬基因数据,并筛选出正常组织和结直肠癌组织之间差异性表达的自噬基因(Differentially expressed autophagy-related genes,DE-ARGs)。2.对DE-ARGs进行GO(Gene Ontology)和KEGG(Kyoto encyclopedia of genes and genomes)富集分析,以确定DE-ARGs的生物学功能和相关的信号通路。3.通过单变量Cox回归分析筛选出与总生存期(Over Survival,OS)相关的DE-ARGs后进行多变量Cox回归分析,建立自噬相关基因的结直肠癌患者预后风险预测模型。4.计算风险评分,按风险值的中位数将患者分为高低风险组,用生存分析(Kaplan-Meier,K-M)和受试者工作特征(Receiver Operating Characteristic,ROC)分析等验证模型的可靠性。5.利用t检验方法比较风险评分与患者的临床特征的关系,包括年龄、性别、肿瘤病理分期、肿瘤原发灶、淋巴结状态以及远处转移状态。6.利用基因表达谱数据动态分析数据库(Gene Expression Profilling Interactive Analysis,GEPIA)以及人类蛋白图谱数据库(The Human Protein Atlas,HPA)中的研究结果来验证本研究风险评估模型的准确性。结果:1.共筛选出66个DE-ARGs,包括27个显著上调和39个显著下调的DE-ARGs。2.GO和KEGG富集分析显示均与自噬有关。3.单变量Cox回归分析确定了15个与OS相关的DE-ARGs,多变量Cox回归分析最终确定了SLC6A1、CDKN2A、PPARGC1A和REP15这4个自噬相关基因用于构建预测模型,K-M生存曲线显示高风险组患者与低风险组患者相比,总生存期(OS)较差,1年、3年和5年的时间依赖性受试者工作特征曲线(ROC)的曲线下面积(Area Under Curve,AUC)分别为:0.70、0.72、0.73,证实了预测模型具有良好的准确性。4.风险评分与临床特征相关性分析的结果显示:风险评分与原发肿瘤分期、淋巴结转移状态、远处转移状态以及肿瘤病理分期相关。5.GEPIA和HPA数据库结果与本研究的结果基本相符:在结直肠组织中SLC6A1、CDKN2A在结直肠癌中表达显著增加,而PPARGC1A和REP15的表达量相对降低;SLC6A1和CDKN2A高表达组中患者的总生存期较低表达组要短,PPARGC1A和REP15高表达组中患者的总生存期较低表达组要长。结论:本研究最终筛选出SLC6A1、CDKN2A、PPARGC1A、REP15这4个与结直肠癌患者预后相关的自噬相关的基因用于构建了预后风险预测模型,可用于评估结直肠癌患者的预后和疗效,有利于进一步指导临床治疗。