论文部分内容阅读
中国癌症发病率和死亡率均较高,随着二代测序的飞速发展,运用生物统计学和计算机语言对生物学问题的挖掘也变得如火如荼。因此,应用生物信息学揭示并解决生物学问题,在科学研究中扮有越来越重要的角色。
糖链相关基因如糖基转移酶、糖苷水解酶,已被证实与肿瘤的迁移、复发、抗化疗药物等密切相关。已有众多针对癌症发生发展的糖链相关基因及其功能对癌症表型的影响与分子机制的研究。本课题组前期发现TCGA数据库的RNA-seq数据显示,在多种癌症组织中,多种糖链相关基因的表达量都有显著改变。基于以上发现,本实验将聚焦于肝癌中差异表达的糖链相关基因,运用机器学习和加权基因共表达网络(WGCNA, Weighted Correlation Network Analysis)网络进行分析,旨在找到在癌症的发生和发展中发挥着重要作用的糖链相关基因,及与其协同变化的其它基因,从更大的尺度去整体把握糖链相关基因的变化,进一步找到关键基因(hub gene),并对其功能进行生物信息分析。
本课题选取TCGA和GTEx数据库中糖链相关基因的肝癌表达谱,比较了三种机器学习模型(随机森林,支持向量机,逻辑回归)预测癌症发生的能力,发现三者的AUC值分别为0.9836,0.9903,0.9986。结合混淆矩阵的结果,发现三种模型对癌症样本预测能力比正常样本强。综合比较三个模型的AUC、混淆矩阵和误差率,发现逻辑回归是三种模型中效果最好的模型。利用逻辑回归,共筛选到16个和肝癌发生发展密切相关的有统计学意义的基因,分别为FUT7、FUT8、HYAL3、CHI3L1、PIGM、MGAT2、GLT6D1、AMY2B、A4GALT、LFNG、MAN1C1、PIGB、HEXB、NEU4、GALNT13、FUT9。
同时,为了进一步研究糖链相关基因的相互作用网络,对TCGA和GTEx数据库中肝癌表达谱进行WGCNA的构建。通过计算任意两对基因之间的皮尔森相关系数的绝对值,选择最佳加权系数6时,R2最大并接近0.9,做出模型拟合效果最好的WGCNA。在此基础上,将遗传相似性矩阵转换为邻接矩阵,最后获得13个基因表达相关性模块。运用验证集对对每个模块进行保守性验证,发现gold、turquoise和blue模块的保守性最好(Z>10)。通过模块与表型的相关性分析,发现turquoise模块和blue模块和表型的相关性最高,高达0.8,0.73,这表明其在癌症发生发展中发挥着重要的作用。对这两个模块进行GO和KEGG富集分析,发现富集到很多重要的生物学通路,如蛋白质运输,RNA定位等。
在以上结果的基础上,本研究利用机器学习和turquoise模块中共有的重要基因NEU4进行了转录组验证。在NEU4基因过表达的转录组中发现,83个潜在转录因子中有15个发生差异表达,且这些转录因子均在turquoise模块中,验证了turquoise模块的可信度以及相关基因在癌症发生发展中的重要性。同时在NEU4基因过表达的转录组中,显示有差异的B4GALT2和PLOD3基因也发生了差异表达,证明了网络构建的准确性和可重复性。
本研究基于机器学习和WGCNA,构建了一个与肝癌密切相关的糖链相关基因互作网络,并筛选出重要的糖链相关基因,为下一步探索这些基因的生物学功能和意义提供思路,同时也为肝癌糖生物学的发展提供一定的线索,为肝癌的诊断和治疗提供了理论依据和数据支持。
糖链相关基因如糖基转移酶、糖苷水解酶,已被证实与肿瘤的迁移、复发、抗化疗药物等密切相关。已有众多针对癌症发生发展的糖链相关基因及其功能对癌症表型的影响与分子机制的研究。本课题组前期发现TCGA数据库的RNA-seq数据显示,在多种癌症组织中,多种糖链相关基因的表达量都有显著改变。基于以上发现,本实验将聚焦于肝癌中差异表达的糖链相关基因,运用机器学习和加权基因共表达网络(WGCNA, Weighted Correlation Network Analysis)网络进行分析,旨在找到在癌症的发生和发展中发挥着重要作用的糖链相关基因,及与其协同变化的其它基因,从更大的尺度去整体把握糖链相关基因的变化,进一步找到关键基因(hub gene),并对其功能进行生物信息分析。
本课题选取TCGA和GTEx数据库中糖链相关基因的肝癌表达谱,比较了三种机器学习模型(随机森林,支持向量机,逻辑回归)预测癌症发生的能力,发现三者的AUC值分别为0.9836,0.9903,0.9986。结合混淆矩阵的结果,发现三种模型对癌症样本预测能力比正常样本强。综合比较三个模型的AUC、混淆矩阵和误差率,发现逻辑回归是三种模型中效果最好的模型。利用逻辑回归,共筛选到16个和肝癌发生发展密切相关的有统计学意义的基因,分别为FUT7、FUT8、HYAL3、CHI3L1、PIGM、MGAT2、GLT6D1、AMY2B、A4GALT、LFNG、MAN1C1、PIGB、HEXB、NEU4、GALNT13、FUT9。
同时,为了进一步研究糖链相关基因的相互作用网络,对TCGA和GTEx数据库中肝癌表达谱进行WGCNA的构建。通过计算任意两对基因之间的皮尔森相关系数的绝对值,选择最佳加权系数6时,R2最大并接近0.9,做出模型拟合效果最好的WGCNA。在此基础上,将遗传相似性矩阵转换为邻接矩阵,最后获得13个基因表达相关性模块。运用验证集对对每个模块进行保守性验证,发现gold、turquoise和blue模块的保守性最好(Z>10)。通过模块与表型的相关性分析,发现turquoise模块和blue模块和表型的相关性最高,高达0.8,0.73,这表明其在癌症发生发展中发挥着重要的作用。对这两个模块进行GO和KEGG富集分析,发现富集到很多重要的生物学通路,如蛋白质运输,RNA定位等。
在以上结果的基础上,本研究利用机器学习和turquoise模块中共有的重要基因NEU4进行了转录组验证。在NEU4基因过表达的转录组中发现,83个潜在转录因子中有15个发生差异表达,且这些转录因子均在turquoise模块中,验证了turquoise模块的可信度以及相关基因在癌症发生发展中的重要性。同时在NEU4基因过表达的转录组中,显示有差异的B4GALT2和PLOD3基因也发生了差异表达,证明了网络构建的准确性和可重复性。
本研究基于机器学习和WGCNA,构建了一个与肝癌密切相关的糖链相关基因互作网络,并筛选出重要的糖链相关基因,为下一步探索这些基因的生物学功能和意义提供思路,同时也为肝癌糖生物学的发展提供一定的线索,为肝癌的诊断和治疗提供了理论依据和数据支持。