论文部分内容阅读
目的:胰腺导管癌(Pancreatic duct adenocarcinoma,PDAC)是恶性程度最高的实体瘤之一,5年生存率极低。基因改变是PDAC分子发病机制的关键。本研究旨在分析PDAC的基因表达谱,揭示与PDAC肿瘤发生及预后相关的中枢基因。方法:首先,从基因表达综合数据库(Gene Expression Omnibus,GEO)中检索到来自两个平台(Affymetrix和Agilent)的8个基因表达谱数据集(GSE15471、GSE16515、GSE41368、GSE62165、GSE62452、GSE71729、GSE71989和GSE91035),包括452例PDAC样本和204例正常胰腺组织样本。分别对每个数据集单独进行log2转换和分位数标准化后使用R/Bioconductor 3.9软件的limma包对每个数据集进行基因差异表达分析,再用RobustRankAggreg(RRA)包对8个数据集的差异基因(differential expression genes,DEGs)进行基因整合分析。之后,使用R/Bioconductor软件中的clusterProfiler包进一步对共同DEGs进行功能富集分析,包括以下几项:1)基因本体(Gene Ontology,GO):分子功能(Molecular function,MF)、生物过程(biological process,BP)和细胞成分(cellular component,CC);2)京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路的富集分析。再后,使用STRING数据库构建共同DEGs的蛋白-蛋白互作(protein-protein interaction,PPI)网络,并且使用Cytoscape(3.7.1)软件对其进行重建,同时使用Cytoscape软件的MCODE插件对PPI网络进行模块化分析。由于GSE62452数据集和癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据包含完整的生存信息,因此它们分别被用作训练和验证数据集。使用R语言中的“survival”包对训练集GSE62452进行单因素生存分析以识别预后相关基因。多变量Cox回归分析用于进一步筛选与患者生存显著相关因素。随后,构建了一个由多个显著预后基因组成的预测模型。最后,将上述预测模型应用于TCGA数据集(验证集),验证它们是否能有效预测PDAC的预后。结果:在肿瘤组织和正常组织之间共筛选出136个共同DEGs(67个上调基因和69个下调基因)。这些共同DEGs的基因功能富集结果显示,细胞外基质(extracellular matrix,ECM)相关基因在GO分析中富集最多;在KEGG通路分析中,胰腺分泌(Pancreatic secretion)、磷脂酰肌醇-3-激酶-蛋白激酶B/Akt(PI3K-Akt)信号途径、蛋白质消化吸收和ECM-受体相互作用(ECM?receptor interaction)是富集最显著的通路。在PPI网络中,10个基因(ALB、EGF、MMP9、EGFR、FN1、MMP1、SERPINE1、TIMP1、PLAU和PLAUR)因具有高度的连通度,被认为可能是与PDAC发病相关的中枢基因。此外,本文还构建了一个由LAMC2、LAMB3、SERPINB5、AREG和SFRP4组成的PDAC预后预测系统。该预测系统在GSE62452数据集和TCGA PDAC数据集中均得到了验证。结论:1.ECM GO条目及通路和PI3K/AKT通路相关基因的高度富集表明ECM调控及PI3K/AKT通路与PDAC的发生、发展密切相关,在促进细胞分化、凋亡、增殖和迁移方面发挥着重要作用。2.本研究证实了一组中枢基因(部分未在PDAC中报道过):ALB、EGF、MMP9、EGFR、FN1、MMP1、SERPINE1、TIMP1、PLAU和PLAUR。这些基因与PDAC的增值、转移、侵袭、预后密切相关,可能对早期诊断PDAC具有重要意义或可作为靶向治疗的潜在靶点。3.本研究还构建了一个由LAMC2、LAMB3、SERPINB5、AREG和SFRP4组成的预后预测模型可能有助于更好地评价PDAC患者的预后,为临床决策提供依据并提供潜在治疗靶点。