论文部分内容阅读
背景:骨肉瘤(Osteosarcoma,OS)是一种常见的原发恶性骨肿瘤,多见于儿童和青少年。很长一段时间以来,OS的治疗方案没有显著的改变。目前OS患者的5年总生存率约为65%且患者的远期预后仍不理想。随着测序技术的高速的发展,R NA-seq已经越来越多的应用于临床疾病的诊断和治疗当中。为了深入研究OS的发病机制并筛选生物学标志物,本研究使用GEO和TARGET数据库中的OS基因表达谱数据和临床信息,深入挖掘OS中的核心基因与OS转移相关的危险因素。此外,基于TARGET数据库中OS患者的临床信息构建临床预测模型。目的:应用生物信息学方法筛选OS的生物学标志物并构建临床预测模型。方法:从GEO数据库中下载OS的测序数据集GSE87624和GSE126209,在R软件中分别对两个数据集做差异表达分析并得到差异基因的交集。基于R中clust erProfile软件包对交集的差异基因做GO与KEGG富集分析并在STRING网站中构建PPI网络。基于Cytoscape中的插件筛选出PPI网络中的核心基因,并在GSE 21257、GSE39055和GSE33382三个芯片数据集中对核心基因的表达水平做进一步分析。此外,在TARGET数据库中获取OS患者的基因表达数据和临床信息。根据临床信息将OS样本分为转移组和非转移组并筛选两组中的差异表达基因。随后,整合全部差异基因的表达数据与其相对应的临床信息,应用Cox回归分析对差异基因做单因素生存分析。分析结果中P<0.05的差异基因被用来进一步构建Cox多因素回归模型并通过逐步回归法筛选得到OS预后相关基因。最后,全部的临床数据被划分训练集和验证集,训练集的数据被用来构建临床预测模型,基于C指数、校正曲线和验证集数据对模型的可靠性予以分析。结果:1.从GSE87624和GSE126209中分别筛选得到3512和4683个差异基因。GSE87624与GSE126209中重叠的差异基因有1299个。2.GO富集分析结果表明,差异基因交集显著富集于细胞外基质组织、细胞外结构组织等生物学过程。KEGG代谢通路富集分析结果表明,差异基因交集显著富集的代谢通路有细胞周期、DNA复制、小细胞肺癌、PI3K-Akt信号通路等。3.(1)在差异基因交集构建的PPI网络中,筛选得到6个核心基因,包括MELK、EXO1、CDC45、CDK 1、CDC6和KIF2C。(2)核心基因在GSE21257中分析结果表明在OS患者5年内转移组中EXO1的表达量显著高于非转移组,MELK、CDC45、CDK1、CDC6和KIF2C的表达量在两组之间无显著差异。(3)核心基因在GSE39055中的分析结果表明在骨肉瘤患者复发组中CDK1的表达量显著低于非复发组,MELK、CDC 45、EXO1、CDC6和KIF2C的表达量在两组之间无显著差异。(4)核心基因在G SE33382中的分析结果表明与正常成骨细胞相比,高级别骨肉瘤组织中CDC45、EXO1、CDC6和KIF2C的表达显著上调,CDK1和MELK的表达在正常成骨细胞和高级别骨肉瘤组织之间无显著差异。4.(1)TARGET数据库中共筛选得到92个差异基因。基于单因素Cox回归分析从96个差异基因中筛选得到13个P<0.05的基因并通过逐步回归法最终筛选得到5个基因,包括MAGEA11、TCF24、MYC、HERC5 和 GZMB。MAGEA11、TCF24、HERC5 和 GZMB 是预后的保护因素,MYC是预后的危险因素。(2)基于全部的临床数据,年龄、性别、肿瘤原发部位以及是否发生转移4个变量被纳入到Cox建模分析当中。通过C指数和校准曲线对模型予以评估,结果表明我们的模型具有较好的区分能力和预测准确性。结论:从GEO数据库中OS的基因表达数据集中筛选得到骨肉瘤的6个核心基因MELK、EXO1、CDC45、CDK1、CDC6 和 KIF2C。联合 TARGET 数据库中 OS 的基因表达数据与临床信息,筛选得到5个OS预后相关的基因包括MAGEA11、T CF24、MYC、HERC5和GZMB,基于临床数据构建了OS临床预测模型。我们的工作可能为今后的OS机制研究与临床诊断和治疗提供参考。