基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建

来源 :郑州大学 | 被引量 : 3次 | 上传用户:ycy111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景和目的在全球范围内,肺癌发病率和死亡率均居于恶性肿瘤首位,其中约85%肺癌为非小细胞肺癌(non-small cell lung cancer,NSCLC)。目前尚缺乏有效的早期诊断方法,很多肺癌患者初诊时已处于中晚期,错过了最佳治疗时间。高通量测序技术和分析方法的不断发展完善,为研究肺癌肿瘤标志物提供了新的思路和方法。肿瘤的形成是一个多基因参与、多因素相互作用、多阶段发展的复杂的生物学过程,这个过程涉及到原癌基因突变、转录本表达谱改变以及蛋白质结构、功能或表达量异常。通过高通量测序技术从转录组水平来深入研究肺癌的分子学机制,可为肺癌早期诊断及靶向治疗提供理论依据。材料和方法本研究对两大公共数据库(GEO和ArrayExpress)进行了系统检索,共纳入了3个与肺癌相关转录组高通量测序(RNA sequencing,RNA-seq)数据和两个肺癌相关的TCGA RNA-seq数据(LUAD和LUSC),根据目前主流研究推荐重新搭建了RNA-seq数据分析流程,对3个GEO数据中的2个原始数据重新进行标准化流程分析,得到了转录组基因计数文件;对于2个肺癌相关的TCGA数据,由于没有获取原始测序文件的权限,因此直接利用GDC的API下载了TCGA提供的LUAD和LUSC转录组表达计数(counts)表达矩阵。随后对五个数据集进行了合并,利用DESeq2和edgeR进行差异表达分析,进而利用limma程序包去除批次效应(batch effect)并利用DESeq2程序包中vst功能进行正态化转换,获得可用于后续WGCNA和机器学习的基因表达矩阵。使用加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis,WGCNA)方法,对1327例NSCLC组织和231例癌旁正常对照的基因转录组表达谱构建基因共表达网络、划分基因模块并寻找与NSCLC密切相关的基因模块,对与NSCLC密切相关的模块进行基因本体(Gene Ontology,GO)和KEGG通路分析。将基因差异表达分析得出的结果与WGCNA结果进行联合分析,可以得到一批与NSCLC密切相关的差异表达基因,随后从去除批次效应并进行正态化转换的转录组表达数据中获取这些基因的表达数据,利用十折交叉验证结合机器学习的方法,构建NSCLC预测模型,在验证组对预测模型效果进行评价。结果DESeq2和edgeR程序包差异表达基因分析结果显示,当差异表达基因定义为|log2FC|>1且校正P<0.01时,共有2956个基因在NSCLC中高表达,其中2124个基因为蛋白编码基因(mRNA),254个基因为lncRNA,578个基因为其他类型基因;共有1790个基因低表达,其中1565个基因为mRNA,96个为lncRNA,129个基因为其他类型基因。WGCNA网络中共划分了39个基因模块,其中2个模块与非小细胞肺癌呈强相关(宝石绿模块R2=0.60,蓝色模块R2=-0.79,均有P<0.001),其中宝石绿模块与NSCLC最为密切。对宝石绿模块中基因的GO分析结果显示,这些基因为核染色体、染色体、中心体、微管组织中心、细胞骨架、微管、微管细胞骨架等组分,DNA结合、转录调控、结合ATP等生物学功能,参与增殖、细胞骨架和微观组织、有丝分裂细胞周期、核分裂、姐妹染色体分离、DNA代谢过程、DNA复制、DNA修复以及细胞DNA损伤刺激反应等生物学过程;KEGG通路分析显示宝石绿模块基因主要富集在细胞周期、卵母细胞减数分裂、细胞衰老等信号通路,模块中差异表达基因主要参与细胞周期、卵母细胞减数分裂、孕酮介导的卵母细胞成熟、细胞衰老、P53信号通路、同源重组等信号通路。这进一步揭示了NSCLC的分子学机制。WGCNA分析结果联合差异表达基因分析结果显示,与NSCLC最密切的宝石绿模块中,共有988个差异表达基因。利用十折交叉验证结合机器学习方法对1558例研究对象的988个基因表达矩阵分析结果显示,构建的多个NSCLC预测模型具有很好的分辨能力,这些模型在验证组中也表现良好,其中SVM、XGBoost、C5.0、PLS、AdaBoost和gbm等算法构建的模型在验证组数据中预测准确率可高达0.98以上;尽管JRip、PART、和rpart算法构建的半透明模型在验证组中准确率也较高,但是特异度较低,综合比较,选取SVM和XGBoost这类黑盒子算法模型作为最终NSCLC预测模型。本研究成功构建了多个准确度在0.98以上的NSCLC预测模型。结论本研究通过对常用公共数据库中与NSCLC相关的RNA-seq数据进行差异表达分析、WGCNA分析,筛选到一批与NSCLC密切相关差异表达基因,GO和KEGG富集分析结果进一步揭示了NSCLC的分子学机制;利用这些基因正态化后的表达数据,采用十折交叉验证结合机器学习的方法,成功构建了多个NSCLC预测模型,其中基于XGBoost、SVM、C5.0和PLS算法的预测模型在验证组中准确度均高于0.98,为RNA-seq数据用于NSCLC早期基因学诊断提供了理论依据。
其他文献
秸秆的质量,特别是C/N是影响秸秆分解速率和养分释放的重要因素。在秸秆还田条件下,如何科学合理地施用氮肥是秸秆利用和优化施肥研究的关键问题。本研究以秸秆还田施入碳氮
目的采用马英龙痔疮膏治疗Ⅱ、Ⅲ期压疮,提高压疮的治愈率,减少压疮的发展。方法 2009年6月—2011年6月院外压疮30例,实验组15例,对照组15例。实验组按常规换药将马英龙痔疮
以东北黑土农田生态系统为研究对象,玉米秸秆配施不同处理的菌剂为还田材料,通过田间试验,探讨在不同菌剂处理方式下,秸秆还田后对土壤碳氮比的影响。结果表明,BNB处理对秸秆
高校学报作为学校科研机构的重要组成部分,应当把服务社会这一职责履行好。高校学报编辑的服务情怀与社会的职责不可分,更与编辑的个人素质不可分。编辑要有奉献精神,要提高出版
目的 观察乌拉地尔治疗急性左心衰竭的临床疗效.方法 将50例急性左心衰竭患者随机分为观察组和对照组各25例.在常规治疗基础上,对照组予以硝普钠微量泵泵入,观察组予以乌拉地
本研究通过对不同竞赛特质焦虑水平的射击运动员,在自我卷入和非自我卷入两种情景中手稳定性的实验研究,结果表明:高特质焦虑的射手在自我卷入情景中,其手稳定性较在非自我卷
在介绍复合型图书馆的基础上,本文通过对图书馆人员队伍现状和复合型图书馆人员素质要求的分析,提出了复合型图书馆队伍建设的基本方法。
目的探讨眼科外伤的临床急救措施及效果。方法选取2010年1月—2013年1月我院收治的眼外伤患者69例,对其实施临床手术急救,观察急救效果。结果 69例患者病情均得到了有效的控
目的 比较观察西罗莫司与环磷酰胺(CTX)静脉冲击联合激素诱导治疗增殖性狼疮性肾炎(LN)的临床疗效.方法 将33例经肾活检诊断为Ⅲ、Ⅳ、Ⅴ型肾功能正常的增殖性LN患者随机分为西罗
采用文献资料法、访谈法分析了安徽省大众游泳的管理制度和安全事故的发生原因,提出了完善安徽省大众游泳管理制度和公共安全服务的建议,旨在加强安徽省大众游泳经营活动的管