论文部分内容阅读
目的:胰腺癌是一种发病隐匿、预后极差的恶性消化系统肿瘤。占全部恶性肿瘤的1-2%,在我国发病率大幅度上升,死亡率上升到第5位。虽然医疗水平快速发展,癌症的诊断和治疗有了很大的进步,但早诊率低,发现时多已属晚期,而且胰腺癌手术率低,手术切除范围受限,术后复发率高达80%以上,使得胰腺癌患者的5年生存率仍处于非常低的状态。生物信息学是生命科学和计算机科学相结合形成的一门交叉学科。本研究利用生物信息学方法对高通量测序结果进行收集、分析胰腺癌发病的差异表达基因,筛选出胰腺癌关键的差异表达基因对胰腺癌发生及发展的分子机制深入研究。方法:第一步在NCBI的GEO基因表达数据库搜集并下载m RNA芯片GSE16515、GSE28735和GSE41368,使用R语言对数据进行整齐化处理并鉴定胰腺癌组织和正常组织之间的差异表达基因(DEGs),并通过火山图将三个数据集的DEGs表达情况反应出来,并用upset图对三个数据集取交集。第二步利用R语言取交集得到的DEGs进行GO(Gene Ontology)功能富集分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集分析。通过STRING数据库建立DEGs之间的蛋白-蛋白相互作用网络PPI(protein–protein interaction)并且通过软件Cytoscape将PPI网络进行可视化处理,同时用其软件插件CytoHubba对PPI网络进行模块分析,筛选出关键候选基因。再将关键候选基因用survExpress在线分析有生存意义的关键基因以及用GEPIA在线分析这些关键基因的表达量。并且利用来自青岛大学附属医院的患者标本进行基因表达量的验证以及患者生存分析的验证。结果:以P<0.05和|logFC|>1为阈值,在GSE16515筛选出1874个DEGs,其中上调的基因为1630个,下调244个,在GSE28735中为603个,其中上调的基因为362个,下调241个,GSE41368中为1837个,其中上调的基因1300个,下调537个。3个数据集之间的交集包括391个DEGs。通过GO富集分析,对各DEGS的生物学功能进行了分析,结果表明DEGS的生物过程(BP)显著富集了细胞过程和生物学功能。例如,这些富集的主要富集于细胞外基质组织和细胞外结构组织。KEGG途径分析证明,这些基因明显富集在与蛋白质消化和吸收相关的途径、癌症中的转录调控失调、肿瘤中的途径中。通过分析PPI网络鉴定出与胰腺癌生存密切相关的8个关键基因(CP、CXCL10、EGF、ITGA2、KRT19、MMP1、MMP14和PLAU)。分别建立8个关键基因的Kaplan-Miere图以及8个关键基因联合分析预的后模型,将胰腺癌患者分为高风险组和低风险组,结果显示8个关键基因高风险组的生存率比低风险组的差,8个基因联合分析显示低风险组的生存率优于高风险组。这一预后标志在青岛大学附属医院的胰腺癌患者中得到了进一步验证。高风险组的总体生存率(OS)明显低于低风险组。在TCGA数据库中,CXCL10、CP、ITGA2、KRT19、MMP1、MMP14和PLAU在胰腺癌组织的表达量高于在癌旁组织,而EGF在胰腺癌组织表达量低于在癌旁组织。这一结果在我们的患者标本中得到验证。结论:本研究通过对mRNA芯片分析鉴定得到的特征性基因可以预测胰腺癌的预后以及指导胰腺癌的治疗靶标。