论文部分内容阅读
目的:CABLES1作为cdk5和c-Abl的底物和衔结蛋白,被证明在非小细胞肺癌[1]、肠癌[2][3]、子宫内膜癌[4,5]、卵巢癌[6][7]中有低表达和抑癌作用,但是是否在很多肿瘤中都有类似的作用。本文旨在研究CABLES1的mRNA表达、拷贝数、甲基化和突变这些分子特征在很多肿瘤中是否有变化和对临床病人生存和预后的影响,以及CABLES1的拷贝数和甲基化是否在肿瘤中会影响到CABLES1的mRNA表达水平,并且CABLES1的mRNA表达、拷贝数、甲基化这些多组学特征能否使用机器学习建立预测模型来预测病人的生存时间。方法:使用Linux命令行从TCGA数据库中下载33种肿瘤的mRNA表达转录组数据、拷贝数数据、甲基化数据、突变数据和临床数据。使用R语言分析CBALES1在33种肿瘤中的mRNA表达水平,使用R语言中的edgeR包做CABLES1的mRNA表达在肿瘤组织和正常组织中的差异表达分析。使用edgeR包做CABLES1的mRNA表达在不同肿瘤分期和不同临床状态的差异表达分析。使用R语言中的survival包做CBALES1的mRNA的高表达与低表达在肿瘤病人中的生存分析。使用R语言分析33种肿瘤中的CABLES1的拷贝数水平,使用survival包做CBALES1的拷贝数扩增、正常和缺失在肿瘤病人中的生存分析。使用R语言中的corr函数做CBALES1的拷贝数水平跟其mRNA表达水平的相关性分析。使用R语言和python分析33种肿瘤中CBALES1的甲基化水平,使用R语言中的limma包做CABLES1在肿瘤组织和正常组织的差异甲基化位点分析,使用R语言中的DMRcate包做CABLES1在肿瘤组织和正常组织的差异甲基化区域的分析。使用corr函数做CABLES1的甲基化水平跟其mRNA表达水平的相关性分析。使用R语言中的genvisR做33种肿瘤中的CBALES1的突变分析。分析CBALES1在不同肿瘤中的突变频率和突变类型。使用Python中的sklearn机器学习库中的Adaboost,regression trees,随机森林和GBRT三种机器学习方法和CABLES1的mRNA表达水平,拷贝数和甲基化数据构建预测模型来预测肿瘤病人的生存时间。结果:1.CBALES1在GBM(多形性胶质母细胞瘤)、LUSC(肺鳞状细胞癌)、PCPG(肾上腺癌)、HNSC(头颈部鳞癌)、LUAD(肺腺癌)、KICH(嫌色细胞癌)、THCA(甲状腺癌)、BLCA(膀胱癌)、CESC(胆癌)、BRCA(乳腺癌)、KIRC(肾透明细胞癌)、KIRP(乳头状肾细胞癌)、READ(直肠癌)、CHOL(胆癌)、ESCA(食管癌)这些癌种中的肿瘤组织中的mRNA表达水平比正常组织中低;CABLES1在HNSC头颈癌中mRNA的低表达对肿瘤患者的预后较差。在头颈癌中,CABLES1在癌症持续恶化的患者中表达较低,在肿瘤得到治愈或缓解的肿瘤中表达较高。CABLES1在肿瘤侵入周围神经组织的肿瘤患者中的mRNA表达较低。2.CABLES1在READ、TCTG(睾丸癌)、COAD(结肠癌)、ACC(腺样囊性癌)、SKCM(皮肤癌)、LGG(低恶性度脑胶质细胞瘤)、KIRC、BRCA(乳腺癌)、PRAD(前列腺癌)、LIHC(肝癌)、KIRP这些癌种中存在拷贝数缺失的情况。在BRCA、KIRP中CABLES1的拷贝数缺失的病人的预后较差。在READ、COAD、OV、HNSC、ESCA、STAD(胃癌)、UVM(眼癌)、LUAD、SKCM、PAAD(胰腺癌)、KIRP、UCS(子宫癌)、KIRC、BRCA癌种中CABLES1的拷贝数水平跟CABLES1的mRNA表达水平有着较强的相关性。3.CABLES1在大多数肿瘤中甲基化水平较低,在LGG、ACC、GBM中CABLES1的转录起始位点上游的甲基化平均水平较高,在LGG、ACC中CABLES1的转录起始位点下游的甲基化水平较高。CABLES1的转录起始位点下游的平均甲基化水平在PAAD、READ、SARC(软组织癌)、UCS、ACC、BRCA、CESC(宫颈鳞状细胞癌)、COAD、KICH(嫌色细胞癌)、KIRC、KIRP、LAML中与CABLES1的mRNA表达有着较强的负相关性。CABLES1的转录起始位点上游5kb内的平均甲基化水平在PAAD、PCPG、SARC、THYM、UCS、ACC、CESC、ESCA、KIRC、KIRP、LAML(骨髓癌)、LGG、LIHC、LUAD中与CABLES1的mRNA表达有着很强的负相关性。在KIRP乳头状肾细胞癌中CABLES1的第21009位的甲基化水平在肿瘤组织中较高,同时此甲基化位点的高甲基化水平造成患者的预后较差,在HNSC头颈癌中,CABLES1的转录起始位点位点上游第31位的高甲基化水平的患者的预后较差,CABLES1的第3165和第2183位点在HNSC和KIRP中均跟CABLES1的mRNA表达水平有着较强的负相关性。4.CABLES1在大多数肿瘤中突变率较低,但在COAD、UCEC(子宫内膜癌)、MESO(胸膜癌)、BLCA、KIRP中突变率较高。CABLES1发生突变的类型中,错义突变的频率最高,其次是3’-UTR突变,还有沉默突变等类型突变频率较高,这些高频突变类型很多可能会对CBALES1的转录和表达造成影响。同时在UCEC、COAD、BLCA、SKCM、KIRP、STAD、LGG、GBM中,都存在一些有义突变。5.使用Adaboost机器学习算法利用CABLES1的mRNA表达,拷贝数和甲基化数据可以比较准确的预测出90.9%的肠癌病人的生存时间,效果较好。结论:CABLES1的mRNA的低表达水平、低拷贝数和高甲基化在很多癌种中都会对患者的生存期和预后较差的影响。在TCGA分析的多种肿瘤中,CABLES1的拷贝数跟CABLES1的mRNA表达水平有较强的正相关性,CABLES1的甲基化水平跟CABLES1的mRNA表达有较强的负相关性。使用Adaboost机器学习算法利用CABLES1的mRNA表达、拷贝数和甲基化数据可以比较准确的预测出90.9%的肠癌病人的生存时间。