论文部分内容阅读
目的:1.运用加权基因共表达网络分析(Weighted gene co-Expression network analysis,WGCNA)构建尤因肉瘤(Ewing’s sarcoma,ES)差异表达基因(differentially expressed genes,DEGs)的无尺度网络,寻找ES患者临床预后的关键基因,并挖掘可能参与的生物学功能。2.基于COX比例风险回归分析,构建ES患者预后风险模型。3.ES相关的多张表达谱芯片联合生物信息学分析,挖掘ES的核心基因及其相关的生物学功能。方法:1.从NCBI GEO数据库下载尤因肉瘤相关的基因表达谱数据及其临床相关信息。ES表达谱芯片数据获取及筛选条件为:(a)数据来自人类的尤因肉瘤患者mRNA表达谱芯片的原始数据,而非动物模型,(b)含有ES组织和正常对照组织或无正常对照组织但有详细临床数据的ES患者的表达谱芯片的原始数据。2.利用RMA(Robust Multiarray Averaging)方法进行原始数据预处理,oligo包用于GSE68776与GSE6315,affy包用于GSE17679与GSE45544。3.GSE17679表达谱芯片利用limma包筛选DEGs,DEGs的筛选阈值为:P值<0.01,log2FC>1或log2FC<-1,其中表达上调为log2FC>1,表达下调为log2FC<-1。4.运用WGCNA包构建GSE17679 DEGs的共表达网络,寻找ES患者临床预后相关的关键基因,并挖掘可能参与的生物学功能。5.将WGCNA中筛选得到的关键基因的表达谱数据利用survival包进行单基因COX风险比例分析,利用rbsurv包构建Robust likelihood-based survival模型对单基因COX风险比例分析进行鲁棒性检验并筛选用于构建多因素COX风险比例回归模型的基因。GSE63157用于验证模型的稳定性。6.sva包用于GSE17679、GSE63157和GSE68776等芯片的批次校正,用limma包筛选多张ES表达谱芯片的DEGs(DEGs的筛选阈值为:adj.P值<0.01,log2FC>1.5或log2FC<-1.5,其中上调的log2FC>1.5,下调基因的log2FC<-1.5)后挖掘其生物学功能和筛选核心基因。结果:1.从GEO数据库获得了GSE68776,GSE45544,GSE17679和GSE63157等四个ES相关的mRNA表达谱矩阵文件。GSE17679实验平台为GPL570,包括88个有临床信息的ES患者样本,11个ES细胞系样本和18个正常对照组织样本;GSE45544实验平台为GPL6244,包括14个ES患者样本,8个ES细胞系样本和22个正常对照组织样本;GSE68776实验平台为GPL5175,包括32个ES患者样本91个ES细胞系样本和33个正常对照组织样本;GSE63157实验平台为GPL5175,包括88个有临床信息的ES患者样本。2.GSE17679筛选得到4131个DEGs(1275个表达下调,2856个表达上调),WGCNA筛选得到4个与生存时间相关的模块,筛选得到92个核心基因,GO富集分析和KEGG信号通路分析显示这些核心基因主要与细胞信号有关。3.COX风险比例分析得到线性模型:Risk score=CSPG5*(-4.2210)+DAPK1*(-3.4872)+DUSP13*(5.4790)+NPY1R*(1.6836)+OPTN*(-3.0195),并且具有较好的稳定性(AUC=0.969);低风险组(86.4%,95%CI=76.%8-97.1%)的五年生存时间显著高于高风险(6.53%,95%CI=1.80%-23.7%)(P=9.675e-12)。GSE63157芯片中ES患者的基因表达数据及临床数据验证了该模型的有效性,证明该模型是独立于其他因素的预后因素。4.多芯片联合分析得到574个DEGs(319个表达下调的基因,255个表达上调的基因),GO富集分析和KEGG信号通路显示这些差异主要参与肌肉收缩、肌原纤维、肌动蛋白结合和心肌收缩等。我们筛选得到10个hub基因,主要与细胞分裂有关系。结论:(1)多芯片联合分析、WGCNA、COX风险比例回归模型等多种稳健可靠的生物信息分析方法有助于ES理解可能发生分子机制,为ES的基础研究提供理论指导。(2)基于5个mRNA构建的COX风险模型可以较好的预测ES患者的总体生存预后,并且将这5个mRNA确定ES患者的独立预后标志物,提供筛选高风险群体的指标和潜在的治疗靶点,为临床医师治疗提供指导。