论文部分内容阅读
背景和目的在全球范围内,肺癌发病率和死亡率均居于恶性肿瘤首位,其中约85%肺癌为非小细胞肺癌(non-small cell lung cancer,NSCLC)。目前尚缺乏有效的早期诊断方法,很多肺癌患者初诊时已处于中晚期,错过了最佳治疗时间。高通量测序技术和分析方法的不断发展完善,为研究肺癌肿瘤标志物提供了新的思路和方法。肿瘤的形成是一个多基因参与、多因素相互作用、多阶段发展的复杂的生物学过程,这个过程涉及到原癌基因突变、转录本表达谱改变以及蛋白质结构、功能或表达量异常。通过高通量测序技术从转录组水平来深入研究肺癌的分子学机制,可为肺癌早期诊断及靶向治疗提供理论依据。材料和方法本研究对两大公共数据库(GEO和ArrayExpress)进行了系统检索,共纳入了3个与肺癌相关转录组高通量测序(RNA sequencing,RNA-seq)数据和两个肺癌相关的TCGA RNA-seq数据(LUAD和LUSC),根据目前主流研究推荐重新搭建了RNA-seq数据分析流程,对3个GEO数据中的2个原始数据重新进行标准化流程分析,得到了转录组基因计数文件;对于2个肺癌相关的TCGA数据,由于没有获取原始测序文件的权限,因此直接利用GDC的API下载了TCGA提供的LUAD和LUSC转录组表达计数(counts)表达矩阵。随后对五个数据集进行了合并,利用DESeq2和edgeR进行差异表达分析,进而利用limma程序包去除批次效应(batch effect)并利用DESeq2程序包中vst功能进行正态化转换,获得可用于后续WGCNA和机器学习的基因表达矩阵。使用加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis,WGCNA)方法,对1327例NSCLC组织和231例癌旁正常对照的基因转录组表达谱构建基因共表达网络、划分基因模块并寻找与NSCLC密切相关的基因模块,对与NSCLC密切相关的模块进行基因本体(Gene Ontology,GO)和KEGG通路分析。将基因差异表达分析得出的结果与WGCNA结果进行联合分析,可以得到一批与NSCLC密切相关的差异表达基因,随后从去除批次效应并进行正态化转换的转录组表达数据中获取这些基因的表达数据,利用十折交叉验证结合机器学习的方法,构建NSCLC预测模型,在验证组对预测模型效果进行评价。结果DESeq2和edgeR程序包差异表达基因分析结果显示,当差异表达基因定义为|log2FC|>1且校正P<0.01时,共有2956个基因在NSCLC中高表达,其中2124个基因为蛋白编码基因(mRNA),254个基因为lncRNA,578个基因为其他类型基因;共有1790个基因低表达,其中1565个基因为mRNA,96个为lncRNA,129个基因为其他类型基因。WGCNA网络中共划分了39个基因模块,其中2个模块与非小细胞肺癌呈强相关(宝石绿模块R2=0.60,蓝色模块R2=-0.79,均有P<0.001),其中宝石绿模块与NSCLC最为密切。对宝石绿模块中基因的GO分析结果显示,这些基因为核染色体、染色体、中心体、微管组织中心、细胞骨架、微管、微管细胞骨架等组分,DNA结合、转录调控、结合ATP等生物学功能,参与增殖、细胞骨架和微观组织、有丝分裂细胞周期、核分裂、姐妹染色体分离、DNA代谢过程、DNA复制、DNA修复以及细胞DNA损伤刺激反应等生物学过程;KEGG通路分析显示宝石绿模块基因主要富集在细胞周期、卵母细胞减数分裂、细胞衰老等信号通路,模块中差异表达基因主要参与细胞周期、卵母细胞减数分裂、孕酮介导的卵母细胞成熟、细胞衰老、P53信号通路、同源重组等信号通路。这进一步揭示了NSCLC的分子学机制。WGCNA分析结果联合差异表达基因分析结果显示,与NSCLC最密切的宝石绿模块中,共有988个差异表达基因。利用十折交叉验证结合机器学习方法对1558例研究对象的988个基因表达矩阵分析结果显示,构建的多个NSCLC预测模型具有很好的分辨能力,这些模型在验证组中也表现良好,其中SVM、XGBoost、C5.0、PLS、AdaBoost和gbm等算法构建的模型在验证组数据中预测准确率可高达0.98以上;尽管JRip、PART、和rpart算法构建的半透明模型在验证组中准确率也较高,但是特异度较低,综合比较,选取SVM和XGBoost这类黑盒子算法模型作为最终NSCLC预测模型。本研究成功构建了多个准确度在0.98以上的NSCLC预测模型。结论本研究通过对常用公共数据库中与NSCLC相关的RNA-seq数据进行差异表达分析、WGCNA分析,筛选到一批与NSCLC密切相关差异表达基因,GO和KEGG富集分析结果进一步揭示了NSCLC的分子学机制;利用这些基因正态化后的表达数据,采用十折交叉验证结合机器学习的方法,成功构建了多个NSCLC预测模型,其中基于XGBoost、SVM、C5.0和PLS算法的预测模型在验证组中准确度均高于0.98,为RNA-seq数据用于NSCLC早期基因学诊断提供了理论依据。