基于深度学习的特定基因序列识别及其关联研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:jjjuuu52107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因记录着人体的遗传信息,控制着人类生长和发育的各个阶段,也是生物信息学中研究的热点。人类基因组计划于1990年被提出,该计划主要是对人类的基因组进行测序,这意味着人们可以在全基因组范围内揭示基因的功能。目前,在人体中大约有2万多个基因,这些基因在人体中构成了复杂的基因网络,彼此间相互协作控制着人体的生命活动。而基因的活动受众多调控因子影响,其中转录因子(Transcription Factors,TFs)对基因的调控作用尤为重要。TFs是一类蛋白,它能够绑定到基因组的一段特定DNA序列上。而被TFs绑定的DNA区域叫做转录因子结合位点(Transcription Factor Binding Sites,TFBSs),TFs正是通过TFBSs来调控下游基因的表达。而同一TF的对齐TFBS s往往在序列水平上是保守的,这种保守性的模式被称为顺式调控模体(简称模体,motif)。由于基因的表达受TFs的调控,识别这些特定的基因序列对于了解人体的生命活动和疾病治疗具有重大的意义。同时,由于TFs对基因调控不仅会改变其与目标基因的关系,而且还可以通过基因网络影响到其它基因,所以衡量基因间关系的改变对于理解TFs对基因的调控作用也很重要。近年来计算机技术的快速发展,使得深度学习(Deep Learning,DL)技术在生物信息学领域被广泛应用,从而促进了生物学技术的发展。因此,本文基于DL技术设计并实现了自己的算法模型,来对TFBSs进行识别以及基因间的条件相关性进行研究。本文的主要研究内容如下:1.对21个用于TFBSs识别和motif发现的DL模型进行了评价,基于对模型性能的评价开发了deepmotif网络服务供研究者使用。首先,本文收集了21个DL模型并使用690套ENCODE Ch IP-seq(Chromatin Immunoprecipitation Followed by Sequencing)数据集、126套癌症Ch IP-seq数据集和55套CLIP-seq(Crosslinking Immunoprecipitation Sequencing)数据集进行了TFBSs识别、motif发现、模型可扩展性和模型可用性方面的性能评估。然后,基于该研究结果开发了deepmotif网络服务来对TFBSs进行识别和motif发现,且该网络服务供研究者免费使用。该研究为研究者使用不同数据集在TFBSs识别、motif发现、模型可扩展性和模型可用性方面选择一个合适的模型和一组DL策略提供了参考依据,同时该研究发现现有模型彼此之间具有高度的互补性,数据大小和类型以及方法输出是研究者选择合适的DL模型的依据。2.提出了基于级联卷积神经网络的TFBSs识别模型(Cascaded Convolutional Neural Network,Cac Pred)来对TFBSs进行识别。通过对21个DL模型的分析和评估发现卷积在TFBSs识别中具有重要作用,并且现有DL模型在TFBSs识别方面的性能需要进一步提高。基于上述发现,本文开发了Cac Pred模型用于对给定序列中的TFBSs进行识别。Cac Pred模型是一个完全基于卷积运算的DL模型,该模型包含六层,即一个卷积层、一个反卷积层、一个组合层、两个串联的卷积层和一个全连接层。Cac Pred模型使用正向的DNA序列和反向互补序列作为输入,这有利于模型学习到更多序列信息实现对TFBSs的准确识别。实验结果表明Cac Pred能够实现TFBSs的精准识别,并且在9种评价指标中均获得了最高得分。为了解释Cac Pred模型,motifs被用来表示Cac Pred模型从给定的序列中所学到的特征,实验表明Cac Pred模型能够找到匹配的motifs。Cac Pred模型的开发对于从大规模数据中精确识别TFBSs提供了良好的技术储备和辅助作用。3.开发了全连接卷积神经网络模型(Fully Convolutional Neural Network,FCNN)用于衡量在不同条件下基因间的相关性。由于TFs对基因的调控不仅会改变其与目标基因的关系,而且还可以通过基因网络影响到其它基因,所以衡量基因间的相关性对于研究TFs对基因的调控作用非常重要。本章以卷积神经网络(Convolutional Neural Network,CNN)为基础,开发了FCNN模型用来衡量不同条件下基因间的相关性。具体来讲,本章通过在传统CNN的前面添加了一个全连接层建立了FCNN,使得该模型能够接受低维度的数据作为输入。然后,从COXPRESdb、KEGG、PPI、TRRUST数据库中收集基因样本,分别计算这些基因对的表达相似性和先验知识相似性特征,进而得到了12个基因对特征。接下来,本章同时使用表达相似性和先验知识相关性的12个基因对特征来计算基因间的条件相关性。FCNN模型是第一个使用DL技术计算基因间条件相关性的模型,该模型比计算基因相关性的传统方法具有很大的优势,取得了较高的准确率。最后,FCNN模型被用来构建癌症基因网络,分析了膀胱尿路上皮癌、乳腺浸润癌、结肠腺癌和肺腺癌与丝氨酸代谢相关的生物通路,实验结果表明基于FCNN模型构建的癌症基因网络富集到了最多的代谢通路。本文的主要贡献是基于DL理论,围绕TFBSs识别及基因间的条件相关性的关键性问题展开研究,从不同的角度进行了相关的算法研究:对能够对TFBSs识别的DL模型进行评价分析进而构建了deepmotif网络服务;基于CNN算法开发了Cac Pred模型用于对TFBSs进行识别,进一步提高了现有模型的性能,并将Cac Pred模型的实验结果在deepmotif网络服务上发布;基于CNN算法构建了FCNN模型用于衡量基因间的条件相关性。本文的研究工作具有较强的前沿性、理论意义和科研价值,而且三部分工作之间存在联系和支撑,共同促进了对TFs功能的研究分析,为未来进一步分析TFs功能打下了基础。
其他文献
猪繁殖与呼吸综合征病毒(Porcine reproductive and respiratory syndrome virus,PRRSV)是高度传染性疾病猪繁殖与呼吸综合征(Porcine reproductive and respiratory syndrome,PRRS)的病原体。可导致孕猪繁殖失败、仔猪和育成猪发生呼吸道症状,引发持续感染和免疫抑制,致死率高,其变异性强,不断出现高致病毒株
学位
随着我国经济转型的不断深入,高技能型人才成为我国人才大军中不可缺失的一股力量。高职院校要想培养出满足市场需求的高技能型人才,解决实际岗位与人才培养脱节、毕业生就业水平低下等问题,必须对人才培养的过程和人才培养的载体进行改革。而分层次项目化教学会让教学效果更好,针对性更强,缩小高职院校的毕业生与市场的距离,实现零距离就业。
期刊
猪细小病毒(Porcine Parvovirus,PPV)是引起母猪繁殖障碍的主要病毒性病原之一,可导致母猪不孕、流产、产死胎、弱胎及木乃伊胎等。PPV常与其它病原体混合感染,如猪圆环病毒、猪乙型脑炎病毒、猪伪狂犬病毒及猪繁殖与呼吸综合征病毒等,加重其危害。近年来不断有研究报道从临床发病猪体中分离到新的PPV突变株,且多次从免疫接种猪群体内分离得到新的PPV亚型,以致PPV一直是猪病研究与防控中的
学位
当今世界,经济科技快速发展,生态环境却愈发恶劣,人类生存受到巨大的威胁。尤其是工业生产中所产生的各种有害气体,它们不仅极难检测,而且即便是微小剂量的存在也可能造成极其严重的生物安全问题。因此,对环境中有害气体的实时监测愈来愈受到人们的关注。自石墨烯问世以来,由于其优异的物理和化学性质得到了广泛而深入地研究,并且逐步在包括材料、物理、化学、生物、能源和信息等领域得到了广泛的应用。其中,由于石墨烯极高
学位
扇贝是一种珍贵的海产品,它富含蛋白质、钙、磷、铁、碘和多种维生素等营养成分。肌动球蛋白作为扇贝闭壳肌中的主要功能蛋白质,对贝类制品的品质起关键的作用。本文以虾夷扇贝(Patinopecten yessoensis)闭壳肌为原料,从闭壳肌体外模拟消化和其肌动球蛋白的理化性质两方面进行研究,以期为扇贝各种深加工制品的开发及加工工艺的优化提供支撑。首先,为了考察扇贝闭壳肌蛋白的体外模拟消化过程,以及热处
学位
随着GML国际标准(ISO 19136-2007)和GML中国国家标准(GB/T 23708-2009)的实施、自发性地理信息(Volunteered Geographic Information,VGI)系统的兴起以及互联网网络要素服务(Web Feature Service,WFS)的日益普及,GML数据凭借其丰富的语义表达、强大的数据模型、开放的数据结构,在互联网上大量涌现,形成独特的地理信
学位
鲍鱼外套膜是鲍鱼加工过程中的副产物,占鲍鱼全重(带壳)的4-7%,富含蛋白质。本论文以皱纹盘鲍外套膜为原料,采用蛋白酶水解法制备鲍鱼外套膜水解物(Abalone mantle hydrolysate,AMH);采用胃蛋白酶与乙酸溶解相结合的方法制备鲍鱼外套膜酶促溶性胶原蛋白(pepsin-soluble collagen,PSC)。采用中性蛋白酶水解鲍鱼外套膜制得AMH,通过超滤得到分子质量分别为
学位
随着经济全球化进程的发展,无论是规模宏大的跨国公司,还是新兴的中小型公司,都面临着经济危机的困扰。公司中的高层管理人员要学会预测和处理企业内部危机,从而降低公司的效益损失,确保经济的可持续发展。因此,经济类文本的翻译,对公司的发展和方案的制定具有一定的指导意义。本篇英译汉翻译实践报告的原文,选自华盛顿邮报的一篇畅销书。《创始人之心态》是由克里斯·祖克和詹姆斯·艾伦合著的书,这本书主要通过列举中外的
学位
学位
随着对外经济活动的深化,国际间的科技交流日益频繁,极大地推动了科技翻译的繁荣与发展。本报告是以由法国Sercel公司2011年研发的V1.04版的海底地震仪(OBS)的用户手册的翻译方法为研究内容的翻译实践报告。该用户手册用来说明地震仪的系统介绍、操作指令,部署方法、数据采集以及系统维修等多个方面的具体操作,属于科技翻译的范畴,具有科技文本的典型特征,其句式单一,以祈使句与被动句居多,个别长难句中
学位