基于Bi-LSTM与DenseNet的蛋白质-RNA结合预测研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户：shensq

【摘要】

：

蛋白质与RNA结合形成的复合物在生物过程中至关重要,有利于鉴定因果疾病变体、基因表达调节、翻译等。蛋白质与RNA在体内结合受到实验环境、噪音和一些额外偏差的影响,而体外

【作者】

：

朱家鹏

【出处】

：

浙江理工大学

【发表日期】

：

2020年01期

【关键词】

：

蛋白质-RNA结合模型 DenseNet Bi-LSTM RNA数值特征序列徽标

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

蛋白质与RNA结合形成的复合物在生物过程中至关重要,有利于鉴定因果疾病变体、基因表达调节、翻译等。蛋白质与RNA在体内结合受到实验环境、噪音和一些额外偏差的影响,而体外实验能够获得更清晰的蛋白质与RNA结合信号。因此,如何从体外数据准确地推断出蛋白质-RNA结合模型,使其在体内结合中准确的预测结合与未结合的RNA转录物已成为关键挑战课题。本文针对此问题,构建了一种基于双向长短记忆神经网络(Bi-LSTM)和稠密连接卷积网络(DenseNet)相结合的蛋白质-RNA结合预测模型,主要工作内容如下:(1)在数据的提取中,考虑到序列的一级结构信息在生物过程中的重要作用,对其进行了单热编码,解决了 RNA序列的数据表示问题并扩充了特征;另外,RNA二级结构在RNA结合蛋白(RBP)中的主要作用是为RPB识别RNA序列建立一个结构上下文(例如环或非结构化),本文使用RNAplfold的变体提取到较为稳定的RNA二级结构;最后本文深入挖掘二级结构信息,使用repRNA中的Triplet方法考虑二级结构成对和不成对的两种状态提取了 RNA数值特征向量。(2)本文构建了一种新的深度神经网络结构模型(RDense),在现有RNA序列和二级结构信息基础上,引入从RNA二级结构提取的数值特征向量作为输入,并把Bi-LSTM和DenseNet结合起来学习蛋白质-RNA结合偏好。针对模型上的优化,损失函数使用绝对平方百分误差来降低离散数据的影响,并且加入交叉验证来做模型的超参数调优。实验结果表明,体外数据的预测结果明显优于现有的方法,在模型的性能上有着显著的提升。最终能够运用体外数据训练好的模型预测体内RNA转录物结合与未结合的两种状态。(3)对比了不同网络结构在体外数据集上的预测结果,实验结果表明本文构建的模型结构最优。另外,通过体外和体内预测结果在不同方法中的比较,发现引入的RNA数值特征向量能够改善蛋白质-RNA结合偏好的预测。针对蛋白质-RNA结合在网络训练时的具体作用过程,本文从模型产生一种可解释的方式,通过ggseqlogo软件包来绘制序列徽标并对比了在不同方法中可视化的序列和结构。最后,本文对蛋白质-RNA结合预测的研究工作进行了总结,并展望了今后的工作重点。

其他文献

基于Wi-Fi的运动手势检测与识别技术研究

随着人工智能的快速发展,手势识别作为新一代的人机交互技术得到了广泛关注。传统的基于可穿戴设备的手势识别技术需要使用者佩戴专有设备,无法在电量较低时使用并且容易造成

学位

Wi-Fi手势检测提取手势识别支持向量机

基于微服务的高等教育质量监测数据平台的研究与实现

随着信息化技术的高速发展,我国的教育信息化工作也于20世纪90年代开始展开,并在基础设施建设、数字内容建设、远程教育、个性化教育等方面取得了快速的发展。在教育信息化中

学位

高等教育质量监测微服务Spring CloudMySQL

基于单张可逆视频快照的视频还原算法研究

相较于静态图像,视频加载和观看的时间成本更高,因此在海量视频中查找所需的视频内容并不容易。大多数视频流媒体和视频共享服务站点都提供视频预览功能,以提供更好的用户浏

学位

视频快照视频扩展信息嵌入运动注意力

机器学习算法在房屋总量及分类统计中的应用

在当前网络互联时代,软件和硬件条件日趋成熟的情形下,各个领域的数据收集及信息存储能力大幅度增强,但这对于信息梳理与挖掘的要求进一步提高,各行业都渴望能有更多样、更高

学位

数据挖掘房屋多分类决策树随机森林

彭定求及其诗文研究

彭定求(1645—1719)是清初苏州地区科举世家文人的典型代表。他于康熙十五年(1676)中状元,后因仕途坎坷辞官回家休养。康熙四十四年(1705)彭定求与曹寅等人负责了清代官修唐

学位

彭定求诗文创作诗文理论

非线性时滞系统的分布式优化控制器设计与分析

分布式优化控制,由于其可以充分利用各个控制器之间的交流与合作来减少计算负担的优点,在近年来得到了快速的发展.但针对的系统大多是一般的线性系统或者非线性系统,而在实际

学位

非线性系统优化控制切换系统时滞

颞下颌关节盘前移位患者最大紧咬时咀嚼肌肌电特征及其对关节盘前移位的辅助诊断

研究背景颞下颌关节紊乱病(Temporomandibular disorders,TMD)是指以下颌运动功能障碍、颞下颌关节(Temporomandibularjoint,TMJ)区疼痛及关节杂音为主要特征,但能排除风湿等其他临床或病理诊断明确的一类颞下颌关节病的总称。根据TMD分类诊断标准(Diagnostic criteria for TMD,DC/TMD),TMD 分为两大类。第 Ⅰ类是疼痛

学位

颞下颌关节紊乱病关节盘前移位表面肌电峰度系数敏感度特异度

基于映射的无监督跨语言词向量模型研究

词向量(Word Embedding)是现今单词的主流表示方法。基于映射的无监督跨语言词向量(Unsupervised Cross-lingual Emeddings)旨在不使用任何跨语言知识,将源语言和目标语言的

学位

词向量无监督学习跨语言学习

极化码迭代译码算法研究

现如今,无线通信系统的发展越来越快,需要更加先进的纠错编码技术来提高传输过程的可靠性。极化码(Polar Codes)编码方案在5G(5th-Generation)增强移动宽带场景(eMBB)下的信

学位

极化码迭代置信传播SCAN算法

戴维森知识论探析

知识论的重要地位是不可动摇的,知识论的研究分析在哲学上具有十分重要的理论意义。自古希腊的柏拉图起,就认为知识是确证的真信念,直到上个世纪初葛梯尔在短文中公开质疑知识的传统定义,使知识论的研究再度成为热点,研究重点发生了转变,倾向于探究知识的理解和确证。戴维森的知识论也是倾向于此。本文主要讨论戴维森知识论在合理性原则下的理解与确证。其合理性原则主要体现在善意原则,塔尔斯基约定T以及三角测量等方式上,

学位

戴维森知识论合理性原则善意原则约定T三角测量模式

基于Bi-LSTM与DenseNet的蛋白质-RNA结合预测研究

与本文相关的学术论文