论文部分内容阅读
目的:利用加权基因共表达网络分析和R语言等生物信息学方法和软件,对TCGA数据库的乳腺癌数据进行挖掘和分析,发现与乳腺癌预后相关的潜在基因。对乳腺癌预后相关基因进行探索、分析和讨论,寻找乳腺癌治疗新靶点,构建辅助评估乳腺癌预后风险的新模型和风险评分,并探讨该模型的风险评分在临床应用中的可能性和价值,为乳腺癌精准治疗提供新方向和方法。研究方法:1.通过收集TCGA数据库中乳腺癌组织样本和癌旁组织样本的相关临床资料、病理情况和分子基因测序等数据,经数据处理后筛选出差异表达基因(DEGs)作为本次研究差异表达基因筛选的总体数据,再进行差异表达基因聚类识别和差异分析。2.通过GO功能富集分析和KEGG基因通路分析探索表达差异基因的相关的生物过程、分子功能、细胞成分和相关通路等。3.使用Cytoscape软件构建所有表达差异基因的蛋白质互作网络(PPI),寻找出关系密切的基因群并将其可视化。4.运用加权基因共表达网络分析(WGCNA)筛选出与乳腺癌预后相关的基因,并进行差异表达基因聚类识别和相关性分析,同时使用Cytoscape的Mcode软件分析这些基因的蛋白互作调控关系并将其可视化,利用Cox回归分析对筛选出来的基因进行相关因素分析,找出具有统计学差异的基因。5.使用R语言构建预测乳腺癌临床预后的基因风险模型,预后风险评分的分组经K-M检验验证,绘制ROC曲线验证该预后风险评分的可靠性,最后通过相关因素分析验证预后风险评分与乳腺癌预后的相关性。研究结果:1.对TCGA数据库中112例癌旁组织样本和1066例乳腺癌样本进行乳腺癌基因组数据进行差异分析(log FC>2且FDR<0.05),一共筛选出1217个差异表达基因,其中上调基因有743个,下调基因有474个。2.在GO功能富集分析中,表达差异基因参与的主要生物过程有:DNA的复杂包装、肌肉系统进程、有丝分裂核分裂、对外源化合物刺激的反应等,发挥的分子功能有:糖胺聚糖的结合、微管细胞骨架组织参与有丝分裂等,细胞成分是细胞外基质。在KEGG基因通路分析中,表达差异基因主要集中在PPAR信号通路、c AMP信号通路、色氨酸代谢、蛋白消化与吸收等通路。3.在PPI网络中发现11个关系密切的基因簇并将其可视化。4.在加权基因共表达网络分析中聚类识别出11个模块,筛选出相关性最高的2个模块中77个基因并显示其调控关系。单因素Cox分析中显示6个基因有统计学意义,分别是TRDN、ST8SIA6-AS1、HHIPL2、SAA1、SAA2-SAA4、SAA4,多因素Cox分析中有2个基因有统计学意义,分别是TRDN和ST8SIA6-AS1。5.使用R语言构建由TRDN、ST8SIA6-AS1、SAA2-SAA4、HHIPL2这4个基因组成的临床预后风险模型,KM检验显示高风险组与低风险组的生存率具有显著的统计学差异(P=0.0002775),ROC曲线显示模型1年、3年、5年预测结果的AUC分别是0.664、0.671、0.625,证明了该预后风险评分具有可靠性,相关因素分析验证该模型的预后风险评分可单独用于乳腺癌临床诊疗。结论:1.TRDN和ST8SIA6-AS1可作为乳腺癌独立预后因素或潜在靶点;2.由TRDN、SAA2-SAA4、ST8SIA6-AS1和HHIPL2这4个基因构建的预后风险评分可以独立于TNM分期等临床病理特征来评估乳腺癌患者的预后风险。