论文部分内容阅读
肝癌是世界上比较常见的恶性肿瘤之一,它的发病率以及病死率在世界范围内分别居于第6位和第3位。且其发生需要经过多个病理阶段,是一个涉及多基因、多因子共同参与的复杂过程。由于肝癌的发病率较高、转移性较强、目前的确诊及治疗方法有限等缺点,导致肝癌患者的治疗效果欠佳。所以,寻找新的疾病标志物、探究药物治疗靶点、研发新的药物成为当前医药研究的热点问题。目前,高通量测序技术以及基因芯片技术的快速发展能够从整个基因组或转录组水平出发来研究疾病的发生、发展,已广泛应用于一些疾病的基因表达谱分析、基因克隆和寻找疾病标志物等方面。通过筛选肝癌样本组织和正常样本组织基因表达谱中的差异表达基因,对差异表达的基因进行生物信息学分析,旨在为研究肝癌的发生发展及相关疾病标志物和药物治疗靶点提供有价值的信息。完成的工作如下:1.从GEO数据库中下载两组肝癌相关芯片原始数据并用R包进行背景矫正、标准化以及表达值计算处理,然后用Limma包进行差异表达基因筛选,共得807个差异表达的基因,其中上调的有496个,下调的有311个。使用DAVID对807个差异表达基因进行GO和KEGG分析,对同时在主要功能和信号通路上显著富集的128个差异表达基因进行蛋白质互作网络分析,进一步筛选与肝癌相关的关键基因。最后,使用肝癌患者生存曲线分析验证,得出CYP3A4、CYP2C9、CYP2E1和CYP2C8四个基因,可能成为肝癌疾病标志物的生物分子或有可能作为肝癌靶向治疗靶点的因子。2.从TCGA数据库下载肝癌基因表达谱数据并利用R包进行差异表达分析,共得1564个差异表达的基因,其中上调的有1400个,下调的有164个。然后使用DAVID对差异表达基因进行GO和KEGG分析,得到这些差异表达基因显著富集的功能和通路。利用STRING数据库构建PPI网络,并使用Cytocape分析软件进行可视化并进一步筛选得到15个关键基因。此外,利用Oncomine数据库及生存曲线分析方法对上述筛选出来的关键基因进行验证,得出PLK1、CDC20、CCNB2、BUU1、MAD2L1和CCNA2六个基因与肝癌的发生发展及预后有着密切的联系。为了更加深入地了解肝癌发生、发展的分子机制,探究适合作为肝癌早期诊断的核心基因及临床治疗提供有价值的信息,为进一步开展相关的功能研究提供理论依据。3.从TCGA数据库下载肝癌原始基因表达谱数据和临床信息数据。在371个肝癌样本组织和50个正常样本组织中,共获得1564个差异表达基因,采用单因素、Lasso和多因素Cox回归分析筛选出CTSE、ESR1和OR2T2基因。建立预测模型,进一步分析揭示了预后模型相对于其他临床特征的独立预后能力,根据曲线分析证实了预测模型的良好性能。最后,采用TCGA数据库中的临床数据分别对上述模型中筛选出的3关键基因进行生存曲线分析,研究这些关键基因对肝癌患者总生存期的预后价值,得到CTSE和ESR1两个基因的高表达均与肝癌的发生发展以及预后有着密切的关系,对于肝癌的研究具有重要意义。