基于深度学习的蛋白质-RNA交互作用预测模型研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：clarkesg

【摘要】

：

随着高通量测序技术的迅速发展，产生了大量的异源生物组学数据。这些数据对于揭示多种重要的生物过程有着重要的意义。蛋白质是组成生物体细胞的重要成分，同时对诸多复杂的生命

【作者】

：

李学峰

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

蛋白质生物调控数据处理深度学习预测模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着高通量测序技术的迅速发展，产生了大量的异源生物组学数据。这些数据对于揭示多种重要的生物过程有着重要的意义。蛋白质是组成生物体细胞的重要成分，同时对诸多复杂的生命活动起着调控作用。一类蛋白质通过绑定DNA，而确保DNA顺利转录成RNA，使遗传信息得以顺利传递;在DNA转录形成RNA后，另一类蛋白质会在特定靶点上绑定RNA，以便对可变剪接体、翻译等转录后的生物过程进行调控。蛋白质-RNA相互作用预测是一个非常重要的生物信息学问题，已引起大家的关注。该问题既可以利用单源数据，也可以融合多种数据源，利用整合分析的计算方法去做预测。目前，研究者已经开发出一系列的比较成熟的基于单一数据的预测方法。然而，该过程受到多种因素的影响，因而，在RNA上寻找蛋白质绑定位点需要整合多种组学数据，才有可能对靶点序列做出更为正确的判别。鉴于生物过程本身的复杂性和基于数据的模型所固有的局限性，诸多的计算方法都只关注了问题的一个层面，有的甚至优缺点互补。因此，为了全面地理解蛋白质-RNA交互作用的功能，还需要更加有效的方法。　　本文以蛋白质-RNA交互作用预测问题作为出发点，对该问题进行了深入探讨和研究，利用多种异源数据，设计了一个整合异源数据的深度学习预测模型，实验表明该方法具有多方面的优越性。具体内容如下:　　首先，对于序列k-met表示的高维和稀疏特点，提出基于重复软最大化(Replicated softmax)模型进行编码降维的策略。重复软最大化方法是一个概率图模型，它对可见层和隐含层变量进行联合概率建模。该模型既可以处理高维离散数据，也可以处理连续数据;并且对输入数据的维数没有限制，因此可以处理变长数据，并且能从随机初始值出发，有效地提取数据中的固定模式。通过实验数据对降维的效果进行检验和评价，结果说明利用重复软最大化模型降维有利于蛋白质-RNA交互作用预测效果的提升。　　对于异源数据稀疏性问题，提出基于深度学习模型整合多种数据的预测方法(DeepRBP)。将整合数据源下具有预测效力的模型与其他四种方法进行比较，结果显示基于深度学习的模型(DeepRBP)在31组蛋白实验数据中的30组都有最好的表现。与仅利用序列信息的深度学习模型相比，DeepRBP具有更大的灵活性，能够整合多种源数据做出精确预测;和基于矩阵分解的方法相比，DeepRBP可以更好地处理高维和稀疏数据。　　基于深度学习的模型(DeepRBP)整合了多种数据源识别与蛋白质-RNA交互作用相关的重要特征，具有更大的灵活性。这些数据源既包含了RNA序列和基因组的特征，又包含了RNA的结构信息，同时还整合了多蛋白共绑定的信息，充分利用了高通量测序技术发展带来的便利性。

其他文献

Sobolev圆盘代数上的乘法算子

本文系统研究了Sobolev圆盘代数R(D)——即由极点在单位闭圆盘D外的有理函数在Sobolev空间W(D)中的闭包构成的函数空间——以及其上的有界线性乘法算子的性质.首先我们研究了

学位

Sobolev空间乘法算子换位子不变子空间

图形的复原和转换

各种各类示意图是自然地理的特色之一，尤其是地球地图、地球运动、大气环境等内容。合理运用各种示意图是进行高效的教与学的重要手段。纵观各类练习和试卷，我们可以发现有一类题型，是对比较熟悉的示意图进行适当的增减和转换，得到的图形常常令人耳目一新，题目的难度随之增大。对于这类题目大部分学生往往比较茫然，不知从何入手，一方面不能正确判别示意图的含义，另一方面不知道图形从何而来，更不知道用什么知识解决问题，往

期刊

图形复原示意图自然地理合理运用地球运动大气环境教与学转换题型题目特色试卷练习耳目地图

小波在语音信息隐藏方面的应用

语音信号作为一种特殊的信息隐藏载体,在其中进行信息隐藏时必须允分考虑人类的听觉特性。本文以小波变换为基础,提出了一种盲检测的自适应语音信息隐藏算法。通过对小波特性

学位

信息隐藏小波语音自适应盲检测

试论女子形体课教学中核心力量训练的作用

本文通过对荣华二采区10

期刊

女子形体教学核心力量训练作用

试论高等职业教育法律保障的现状问题与建议

本文通过对荣华二采区10

期刊

高等职业教育法律体系现状问题对策与建议

断层封堵性评价的软件设计

断层封闭性是一个极为复杂的地质问题,它受断层的力学性质、断面承受应力状况、断层剪切带等多种地质条件制约。我们研究油气田断层封闭性,是要揭示这多种制约条件对断层封闭

学位

断层封堵性样条插值断面压力泥质涂抹断面泥质含量

深化广播电视编导专业实验教学改革培养复合型人才

文章以当前广播电视事业的发展需要为背景,以广播电视编导为例,分析了传统实验教学存在的问题,并对问题进行深入思考,提出了新的实验教学改革思路。由实验教学理念入手,从实

期刊

复合型人才实验教学广播电视编导广播电视事业教学改革思路实验人员学习方向广播电视艺术人才培养知识的基础

一个漏失模型中漏失位置与漏失强度适定性研究

当前,输配气(油)管网中漏失位置与漏失强度的确定是油气储运工程、油气储运理论研究最为热门的课题,同时又是油气田生产中亟待解决的实际问题。国内外许多工程人员和自然科学

学位

漏失模型漏失位置漏失强度LaPlace积分变换存在性与唯一性偏微分方程反问题

自对偶置换码和m-重量

　　本文研究了编码理论中的两个问题：自对偶置换码的存在性，有限域上线性码的m-重量.全文分为三个部分：前言部分介绍了本文两个主题的研究背景，研究现状并概述了我们的一些研究

学位

自对偶置换码自对偶线性码自对偶群码m-重量

基于边合成边测序技术的碱基辨识模型与算法

在第二代DNA测序技术中，以Illumina测序为代表的边合成边测序技术占据了大部份市场份额。在测序过程中，将原始信号翻译为碱基序列的过程被称为碱基辨识。碱基辨识方法的精度决

学位

DNA测序碱基辨识分块处理空间混杂逻辑回归应用软件

基于深度学习的蛋白质-RNA交互作用预测模型研究

与本文相关的学术论文