基于网络分析和机器学习的肝癌中糖链相关基因筛选

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lvsby2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国癌症发病率和死亡率均较高,随着二代测序的飞速发展,运用生物统计学和计算机语言对生物学问题的挖掘也变得如火如荼。因此,应用生物信息学揭示并解决生物学问题,在科学研究中扮有越来越重要的角色。
  糖链相关基因如糖基转移酶、糖苷水解酶,已被证实与肿瘤的迁移、复发、抗化疗药物等密切相关。已有众多针对癌症发生发展的糖链相关基因及其功能对癌症表型的影响与分子机制的研究。本课题组前期发现TCGA数据库的RNA-seq数据显示,在多种癌症组织中,多种糖链相关基因的表达量都有显著改变。基于以上发现,本实验将聚焦于肝癌中差异表达的糖链相关基因,运用机器学习和加权基因共表达网络(WGCNA, Weighted Correlation Network Analysis)网络进行分析,旨在找到在癌症的发生和发展中发挥着重要作用的糖链相关基因,及与其协同变化的其它基因,从更大的尺度去整体把握糖链相关基因的变化,进一步找到关键基因(hub gene),并对其功能进行生物信息分析。
  本课题选取TCGA和GTEx数据库中糖链相关基因的肝癌表达谱,比较了三种机器学习模型(随机森林,支持向量机,逻辑回归)预测癌症发生的能力,发现三者的AUC值分别为0.9836,0.9903,0.9986。结合混淆矩阵的结果,发现三种模型对癌症样本预测能力比正常样本强。综合比较三个模型的AUC、混淆矩阵和误差率,发现逻辑回归是三种模型中效果最好的模型。利用逻辑回归,共筛选到16个和肝癌发生发展密切相关的有统计学意义的基因,分别为FUT7、FUT8、HYAL3、CHI3L1、PIGM、MGAT2、GLT6D1、AMY2B、A4GALT、LFNG、MAN1C1、PIGB、HEXB、NEU4、GALNT13、FUT9。
  同时,为了进一步研究糖链相关基因的相互作用网络,对TCGA和GTEx数据库中肝癌表达谱进行WGCNA的构建。通过计算任意两对基因之间的皮尔森相关系数的绝对值,选择最佳加权系数6时,R2最大并接近0.9,做出模型拟合效果最好的WGCNA。在此基础上,将遗传相似性矩阵转换为邻接矩阵,最后获得13个基因表达相关性模块。运用验证集对对每个模块进行保守性验证,发现gold、turquoise和blue模块的保守性最好(Z>10)。通过模块与表型的相关性分析,发现turquoise模块和blue模块和表型的相关性最高,高达0.8,0.73,这表明其在癌症发生发展中发挥着重要的作用。对这两个模块进行GO和KEGG富集分析,发现富集到很多重要的生物学通路,如蛋白质运输,RNA定位等。
  在以上结果的基础上,本研究利用机器学习和turquoise模块中共有的重要基因NEU4进行了转录组验证。在NEU4基因过表达的转录组中发现,83个潜在转录因子中有15个发生差异表达,且这些转录因子均在turquoise模块中,验证了turquoise模块的可信度以及相关基因在癌症发生发展中的重要性。同时在NEU4基因过表达的转录组中,显示有差异的B4GALT2和PLOD3基因也发生了差异表达,证明了网络构建的准确性和可重复性。
  本研究基于机器学习和WGCNA,构建了一个与肝癌密切相关的糖链相关基因互作网络,并筛选出重要的糖链相关基因,为下一步探索这些基因的生物学功能和意义提供思路,同时也为肝癌糖生物学的发展提供一定的线索,为肝癌的诊断和治疗提供了理论依据和数据支持。
其他文献
【摘要】《纲要》中指出:“儿童的早期阅读能力培养已被纳入幼儿园语言教育的目标。”以此可以明确阅读的定位已经是在一个十分重要的位置,阅读作为幼儿的一种知识获得的途径,它并不是单一的依靠视听感官去刺激画面知识传递,其中重要的意义在于它是一种隐性的沟通方式。幼儿可以通过共享阅读的方式去进行思维的碰撞,在共同的阅读过程中,激发幼儿的情感思绪,满足深层的同伴交流意愿。  【关键词】分享阅读 情感沟通  传统
期刊
背景
  智力障碍(Intellectualdisability,ID)是一种复杂的神经发育性疾病,表现为智力和适应能力低下,在世界人口中的发生率为1%,致病因素主要有遗传、感染、营养不良等。遗传作为其发病的重要致病因素,并已从家系分析、高通量测序数据分析中得到证实。国内外的遗传研究重点是筛选出相关疾病的致病基因以及遗传规律的分析。新生突变(denovomutations,DNMs)在严重散发ID疾病病因中扮演重要作用。DNMs是新致病基因的一个重要的来源并且为ID的遗传全景提供更深见解。通过筛选更
背景
  癫痫是目前人类中比较常见的一种神经精神类疾病,在我国癫痫年发病率大约为3/1000~5/1000,并且伴随有癫痫症状的患者已经超过900万.癫痫性脑病(Epilepticencephalopathy,EE)是主要发生在儿童期的一类具有严重癫痫症状的脑部疾患.这些EE亚型的临床特征除了癫痫发作外,主要表现为慢性神经功能障碍、智力低下、自闭症、神经精神发育迟滞或倒退、语言障碍等.EEs也是一组顽固性的神经性疾病,其特点是严重的早发性癫痫和发育迟缓,癫痫样活动丰富,一般预后不良.测序研究的进展以
研究背景
  随着下一代测序技术在医学遗传学中的应用不断扩大,大量的错义变异被检测出来,但是这些变异中只有一小部分对人类疾病有贡献。然而检测这些变异应用实验验证的方法是不可行的,会浪费大量的人力物力,为了解决这些限制,越来越多的计算机方法被开发出来。一般而言,这些方法可以分为三类:(i)功能预测型方法,预测给定的错义变异使蛋白质功能发生改变的可能性;(ii)保守型预测方法,通过多重比对测量突变的保守性程度;(iii)整合型方法,整合来自多组分方法的信息。选择最佳的方法可以加速候选基因的鉴定。然而,在
研究背景
  CRISPR/Cas9系统是目前应用的第三代基因编辑系统,由Cas9核酸酶与向导RNA(SmallguideRNA,sgRNA)组成,因其操作相对简单,成本相对低廉而被广泛应用。CRISPR/Cas9系统因其来源多种不同的细菌而具有多个种类,包括SpCas9(Streptococcuspyogenes),SaCas9(Staphylococcusaureus),NmCas9(Neisseriameningitides),StCas9(Streptococcusthermophilus)
研究背景:
  CRISPR-Cas系统来源于微生物的免疫系统,是基因编辑领域最近出现的最有效的工具。此系统中sgRNA负责靶向目的DNA片段,Cas蛋白则对靶向序列进行切割。CRISPR-Cas系统切割靶序列时,需要识别与靶序列毗邻的PAM。不同种类的Cas蛋白识别不同的PAM序列。
  研究目的:
  为了实现利用CRISPR-Cas系统对目的基因的精准切割,促进其在医疗,农业等领域的应用,研究者们已经从开发了多种识别不同PAM的Cas蛋白。在确定新发现Cas蛋白的功能性PAM方面,
近年来,由于人们生活水平的迅速提高,医疗、农业和工业迅速发展,导致水污染问题日益突出。目前水污染主要包括重金属污染和有机物污染。铬作为典型的重金属离子污染物,广泛用于电镀加工,金属工艺,皮革精制和颜料制造,在自然界循环作用下,其普遍存在于地下水,地表水和土壤中。铬在自然界中通常以氧化态形式存在,并有多种价态,常见为六价和三价。六价铬具有急性毒性效应、诱畸变性和致癌性。氧氟沙星作为一种广谱抗生素,被广泛用于治疗人体细菌感染。但是它在人体中不能被完全代谢,进入水体后会对生物产生一定危害。因此,解决水体中的六价
【目的】
  1、了解生命早期铅暴露对小鼠及子代海马回NMDAR及DNMT1的影响。
  2、探讨生命早期铅暴露长期及隔代效应的表观遗传学机制。
  【方法】
  小鼠经母鼠饮用0.20%醋酸铅溶液进行铅暴露,暴露时间为孕13d至产后21d,暴露结束时抽检血铅值以验证动物造模结果。分别于小鼠4、8、12月龄及子代4月龄时,用ICP-MS法检测其血铅、脑铅值,用Q-PCR方法检测海马回NMDAR(NR1、NR2A、NR2B)及DNMT1mRNA表达水平,用Westernblot方法检
为了了解平原河网地区颗粒附着态微生物与浮游态微生物的丰度、多样性和群落结构的时空变化特征及与环境因子的关系,本文通过为期一年的野外采样调查对其进行探索,选取温瑞塘河周边四处不同类型区域——商业区、工业区、种植区和风景区(对照组)分别在夏、秋、冬、春四个季节进行样品采集,每个区域平行采3个样品。运用454焦磷酸测序、表面荧光计数法、DNA提取、实时荧光定量PCR和多元统计分析方法对温瑞塘河中的颗粒附着态和浮游态细菌的丰度、群落结构的时空异质性以及与环境因子的关系进行研究,得到如下结果:
  (1)温瑞
目的:
  本研究就SelenoH的异常表达如何调控α-synuclein及其在帕金森病疾病中的机制进行探索。
  方法:
  本实验用脂质体转染法分别转染SelenoH的干扰RNA和真核生物过表达载体(pCMV-myc-SelenoH)到SK-N-SH细胞中,利用高保真重叠PCR的方法构建SelenoH硒代半胱氨酸突为半胱氨酸的pCMV-myc-SelenoH-Mutation真核生物过表达载体并且转染到SK-N-SH细胞中,采用qRT-PCR、蛋白免疫印迹的方法分别检测SelenoH