基于进化深度卷积神经网络全基因组RNA结合蛋白识别

来源 :吉林大学 | 被引量 : 0次 | 上传用户:killer258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA结合蛋白(RNA-binding proteins,RBPs)是一类与RNA调节和代谢相关的蛋白质,在RNA成熟、转运、定位和翻译过程中起着重要作用。然而,生物实验性的全基因组RNA结合检测方法成本高且耗时。因此,迫切需要一种高效、快速的方法来利用从现有标注知识中学习到序列模式来预测RBP结合位点。由于紫外交联免疫沉淀结合高通量测序(CLIP-seq)的快速发展,积累了大量关于RNA分子与RNA结合蛋白相互作用的数据,这为使用大数据来预测RBP提供了机会。最近,全基因组RNA结合事件检测方法已被提出用于预测RBP。然而,现有计算方法通常受到一些限制,如高维性、数据稀疏性和模型性能低。因此如何有效表征RBP特征信息和设计高效的计算方法来识别RBP是一个富有挑战的研究内容。本文的主要贡献是从模型优化和增加特征信息两个方面对传统深度神经网络进行改进,并设计进化深度卷积神经网络和多编码集成深度神经网络来提升识别RBP的精度。深度卷积神经网络在处理高维稀疏数据方面具有良好的优势。为了进一步提高深度卷积神经网络的性能,我们提出进化深度卷积神经网络(Evolutionary deep convolution neural network,EDCNN),通过协同进化优化和梯度下降来增强传统的深度卷积神经网络框架来识别蛋白质-RNA相互作用关系。EDCNN将进化算法和不同的梯度下降模型结合在一个互补算法中,其中梯度下降和进化步骤可以交替优化RNA结合蛋白识别性能。为了验证EDCNN的性能,我们在两个大规模CLIP-seq数据集上进行了实验,结果表明EDCNN提供了优于其它最先进方法的性能。此外,我们还从多个角度验证了算法的有效性,如时间复杂度分析、参数分析和基序(Motif)分析等。此外,我们设计了一个多编码集成神经网络(Multi-code ensemble deep neural network,MCEDNN)来提升RBP结合事件的预测精度。首先将RNA序列转换成多种编码表征形式,接着针对不同编码信息设计了不同的特征提取神经网络,然后将学习到的高级特征聚合起来,最后通过多层感知机进行分类。我们在55个大规模RBP数据集上进行了多组实验来验证所提出算法的有效性。
其他文献
会话中的情感识别在意见挖掘,人力资源,医疗保健等不同的领域逐渐得到了广泛的应用,对于许多人工智能相关的应用来说,是不可或缺的一部分。通过分析会话中的文本识别出会话中每一句话语的情感,依据不同的情感状态做出适当的反馈,可以让机器智能来帮助人类更好的进行工作,对于各领域的信息化发展与智能化发展有着深远的影响和积极意义。虽然目前的会话情感识别方法已经取得极佳的效果,然而,现有的方法无法很好的整合文本情感
学位
根因定位是网络故障管理中的关键过程,旨在从一系列观察到的故障现象中推断出根因的确切来源。解决根因定位的现有方法有些基于逻辑规则,有些基于机器学习。然而,随着通信网络变得更加复杂,知识驱动的基于逻辑规则的方法面临着效率低下和缺乏灵活性的问题。数据驱动的机器学习方法则由于依赖大规模训练集和缺乏可解释性,并未被业界广泛接受。本文尝试将根因定位中知识驱动的方法与数据驱动的方法结合——同时利用两种方法的优势
学位
面粉作为小麦的主要产物,因其良好的加工性能,成为我国主要的主食品种。但是,我国目前生产的面粉主要以中低筋面粉为主,随着人们生活水平的提升以及对食物健康的愈加关注,高品质的面制品逐渐被大众所青睐。添加改良剂成为一种重要的加工方法。聚3-羟基丁酸酯(PHB)是存在于微生物体内的天然产物,其降解产物3-羟基丁酸(3HB)具有多种生理功能。PHB具有与面粉乳化剂类似的两亲性结构,初步试验发现其能改善面粉粉
学位
癌症一直是人类健康的巨大威胁。现代社会中,更多的外在因素成为了恶性肿瘤的发病诱因,但是癌症最根本的发病原因体现在基因的变化上。通常,癌症是通过发病的组织来源进行命名,但是同一部位的癌症会由于内在基因表达水平不同,具有不同临床表现,这种异质性使得同一部位的癌症分为不同亚型。为了提高癌症的治愈率,需要根据每个亚型制定合适的诊断与治疗方案。辨别癌症的亚型被认为是个体化治疗的关键和具有挑战性的步骤。现有的
学位
图数据在生物、化学信息学等领域有许多关键应用,如分子属性判断,新药发现等。图这种数据结构还可以用来表示关系型数据,比如社交网络、知识图谱等。图结构数据因为其强大的表示能力,受到越来越多研究人员的重视,使用图神经网络(Graph Neural Networks,GNN)从图数据中学习到的高质量的节点嵌入和图嵌入被广泛应用于图数据分析中,例如节点分类、连接预测以及图分类等问题。将CNN的卷积原理应用到
学位
甜菜红素是一种天然色素,广泛存在于红甜菜和火龙果皮及果肉之中。甜菜红素的主要成分甜菜红苷(Betanin,Bt)具有诸多功能特性,且被欧盟批准为红色食品着色剂,被广泛用作果酱、冰激凌、蛋糕等食品着色。但甜菜红苷易受温度等因素的影响,稳定性较差,目前研究通过小分子辅色、微胶囊化等方法改善甜菜红苷稳定性,虽有一定效果但存在诸多缺陷和安全隐患。本论文选用乳蛋白中的乳清蛋白(Whey Protein,WP
学位
特征选择是特征工程中的一个重要问题,是缓解“维数诅咒”的有效方法。随着大规模数据在各个领域的不断涌现,如何从高维数据中快速有效地识别关键特征,对鲁棒模型的构建,以及进一步从关键特征中发掘出隐藏信息,有着重要的社会价值和现实意义。本文的主要贡献在于针对特征选择问题改进差分进化算法和灰狼优化器,为缓解“维数诅咒”困境提供新模型、新方法。具体地,一种基于自适应机制的加权差分进化算法(Sa WDE)被提出
学位
嵌合酶是指由两种或两种以上酶的不同功能片段融合而成并呈现出新催化特性的酶分子。其出现及其相关技术的发展为酶工程的研究和应用提供了新策略。利用蛋白质工程技术构建嵌合酶来实现酶的底物选择偏好性改变一直是科学研究热点。基于此,本研究以Rhizomucor miehei来源的脂肪酶RML为研究对象,与实验室前期研究已挖掘出具有磷脂酶活力调控功能的蛋白元件嵌合,构建系列新型嵌合脂解酶,开展其酶学性质表征研究
学位
多智能体系统对解决分布式问题具有灵活性和智能性的特点,并且在仓库管理、自治交通工具、机器人、物流交付等多个领域有着广泛应用。多智能体路径规划是多智能体系统的核心问题,研究多智能体路径规划问题,可以提高多智能体系统的运行效率,同时对多智能体系统所应用的领域的发展有着深远影响和积极意义。虽然目前的多智能体路径规划方法已经取得不错的成果,然而,由于规划空间过于复杂,现有的方法将规划空间采样成为参考点或者
学位
赶黄草(Penthorum chinense Pursh),又名扯根菜,是虎耳草科扯根菜属植物,其富含黄酮类、萜类、多酚类、木脂素类、有机酸类等活性成分。现代药理学研究表明,赶黄草具有抗氧化、护肝利胆、抗病毒、抗肿瘤、抗炎、降血脂等多种生物活性。目前鲜有针对赶黄草不同地上部分的活性物质的对比研究,因此本文以赶黄草花总黄酮(H-Fla)、赶黄草叶总黄酮(Y-Fla)为研究对象,对其进行了提取工艺优化
学位