基于深度学习的蛋白质-RNA交互作用预测模型研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:clarkesg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的迅速发展,产生了大量的异源生物组学数据。这些数据对于揭示多种重要的生物过程有着重要的意义。蛋白质是组成生物体细胞的重要成分,同时对诸多复杂的生命活动起着调控作用。一类蛋白质通过绑定DNA,而确保DNA顺利转录成RNA,使遗传信息得以顺利传递;在DNA转录形成RNA后,另一类蛋白质会在特定靶点上绑定RNA,以便对可变剪接体、翻译等转录后的生物过程进行调控。蛋白质-RNA相互作用预测是一个非常重要的生物信息学问题,已引起大家的关注。该问题既可以利用单源数据,也可以融合多种数据源,利用整合分析的计算方法去做预测。目前,研究者已经开发出一系列的比较成熟的基于单一数据的预测方法。然而,该过程受到多种因素的影响,因而,在RNA上寻找蛋白质绑定位点需要整合多种组学数据,才有可能对靶点序列做出更为正确的判别。鉴于生物过程本身的复杂性和基于数据的模型所固有的局限性,诸多的计算方法都只关注了问题的一个层面,有的甚至优缺点互补。因此,为了全面地理解蛋白质-RNA交互作用的功能,还需要更加有效的方法。  本文以蛋白质-RNA交互作用预测问题作为出发点,对该问题进行了深入探讨和研究,利用多种异源数据,设计了一个整合异源数据的深度学习预测模型,实验表明该方法具有多方面的优越性。具体内容如下:  首先,对于序列k-met表示的高维和稀疏特点,提出基于重复软最大化(Replicated softmax)模型进行编码降维的策略。重复软最大化方法是一个概率图模型,它对可见层和隐含层变量进行联合概率建模。该模型既可以处理高维离散数据,也可以处理连续数据;并且对输入数据的维数没有限制,因此可以处理变长数据,并且能从随机初始值出发,有效地提取数据中的固定模式。通过实验数据对降维的效果进行检验和评价,结果说明利用重复软最大化模型降维有利于蛋白质-RNA交互作用预测效果的提升。  对于异源数据稀疏性问题,提出基于深度学习模型整合多种数据的预测方法(DeepRBP)。将整合数据源下具有预测效力的模型与其他四种方法进行比较,结果显示基于深度学习的模型(DeepRBP)在31组蛋白实验数据中的30组都有最好的表现。与仅利用序列信息的深度学习模型相比,DeepRBP具有更大的灵活性,能够整合多种源数据做出精确预测;和基于矩阵分解的方法相比,DeepRBP可以更好地处理高维和稀疏数据。  基于深度学习的模型(DeepRBP)整合了多种数据源识别与蛋白质-RNA交互作用相关的重要特征,具有更大的灵活性。这些数据源既包含了RNA序列和基因组的特征,又包含了RNA的结构信息,同时还整合了多蛋白共绑定的信息,充分利用了高通量测序技术发展带来的便利性。
其他文献
本文系统研究了Sobolev圆盘代数R(D)——即由极点在单位闭圆盘D外的有理函数在Sobolev空间W(D)中的闭包构成的函数空间——以及其上的有界线性乘法算子的性质.首先我们研究了
各种各类示意图是自然地理的特色之一,尤其是地球地图、地球运动、大气环境等内容。合理运用各种示意图是进行高效的教与学的重要手段。纵观各类练习和试卷,我们可以发现有一类题型,是对比较熟悉的示意图进行适当的增减和转换,得到的图形常常令人耳目一新,题目的难度随之增大。对于这类题目大部分学生往往比较茫然,不知从何入手,一方面不能正确判别示意图的含义,另一方面不知道图形从何而来,更不知道用什么知识解决问题,往
语音信号作为一种特殊的信息隐藏载体,在其中进行信息隐藏时必须允分考虑人类的听觉特性。本文以小波变换为基础,提出了一种盲检测的自适应语音信息隐藏算法。通过对小波特性
本文通过对荣华二采区10
本文通过对荣华二采区10
断层封闭性是一个极为复杂的地质问题,它受断层的力学性质、断面承受应力状况、断层剪切带等多种地质条件制约。我们研究油气田断层封闭性,是要揭示这多种制约条件对断层封闭
文章以当前广播电视事业的发展需要为背景,以广播电视编导为例,分析了传统实验教学存在的问题,并对问题进行深入思考,提出了新的实验教学改革思路。由实验教学理念入手,从实
当前,输配气(油)管网中漏失位置与漏失强度的确定是油气储运工程、油气储运理论研究最为热门的课题,同时又是油气田生产中亟待解决的实际问题。国内外许多工程人员和自然科学
  本文研究了编码理论中的两个问题:自对偶置换码的存在性,有限域上线性码的m-重量.全文分为三个部分:前言部分介绍了本文两个主题的研究背景,研究现状并概述了我们的一些研究
在第二代DNA测序技术中,以Illumina测序为代表的边合成边测序技术占据了大部份市场份额。在测序过程中,将原始信号翻译为碱基序列的过程被称为碱基辨识。碱基辨识方法的精度决