基于卷积神经网络的RNA二级结构预测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:LISA19861011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,探知RNA二级结构一直是RNA研究领域的重要和难点问题。目前虽然部分RNA的二级结构可以通过实验手段获取,但在大多数情况下仍然需要采用计算机预测方法来预测RNA二级结构预测。当前RNA二级结构的预测方法主要是基于最小自由能的动态规划类算法,通过迭代的方式找到满足能量最小或其他限制条件的RNA体内折叠最佳状态来预测RNA结构。但是由于生物体内环境的复杂性使得RNA的真实结构并不能满足能量最小的最佳折叠状态,而是一种基于生物势能平衡状态。对于序列较短的RNA,折叠生物势能平衡状态接近最小自由能状态,最小自由能的算法可以获得较高的准确率。然而对于较长的RNA序列,其结构复杂,在体内生物环境中存在反复折叠导致其生物势能平衡状态远远偏离最小自由能状态,使得使用基于传统能量方法预测精度严重下降,无法准确预测RNA二级结构。深度学习方法是一种常见的表示学习方法,能够自动的从数据中挖掘出有效分类的隐藏特征。本文基于深度学习和现有真实RNA二级结构数据,提出一种应用卷积神经网络模型结合动态规划算法的新型RNA二级结构预测方法CDPfold。该方法基于现有实验已经得出的真实RNA结构数据,构建深度卷积网络模型,从大规模RNA序列数据及其结构数据中挖掘有效分类的隐含特征,并以此为依据预测出每一个碱基的配对概率。对于得到的概率结果,应用动态规划的计算思想,得到满足RNA二级结构定义且各个碱基的匹配概率之和最大的RNA二级结构作为预测的最终结果。本文通过对已知结构的RNA进行编码,应用卷积神经网络对RNA序列上的每个碱基配对情况进行预测,最后应用动态规划方法对预测结果进行组合,可以得到预测出的RNA最优二级结构。实验结果表明,CDPfold在5sRNA、tRNA和srpRNA这3个RNA家族的预测上,相较于其他常见的RNA二级结构预测算法,其敏感性和特异性均提高了30%左右。另外由于深度学习方法的性能与数据量的大小直接相关。由此可以推测出随着经过生物实验验证的真实RNA结构数据的不断增加,应用本文所提出的方法对各类RNA家族的预测精度也会不断的提高。
其他文献
由于聚合物材料有着成本低,重量轻,耐腐蚀的特点,近二、三十年来,越来越多的学者对聚合物热交换器进行了研究,尤其是复合基聚合物材料的开发,聚合物热交换器被应用在越来越多
对我国民办高校发展规模的现状进行分析可知,我国民办高校发展的总规模持续扩大,但增长比例普遍呈逐年递减趋势;覆盖面宽,且各省、市、自治区发展规模普遍增长;层次结构提高,本科层
分析了几种常用滤波算法对DDL(电流变化率和电流增量)保护的适用性,提出了滤波算法应用的新思路:用中值滤波后的电流波形作为保护启动判据;用小波滤波后的电流波形作为保护出
目的观察急性心梗后心律失常的发生时间规律。方法抽选167例急性心肌梗死患者为观察对象,分时段统计急性心肌梗死后心律发生的时间和病例数,各时段之间发生率进行χ2检验。结
本文从安全性、流动性、盈利性、创新能力、发展能力和经营效率六个方面构建评价指标体系,采用因子分析法对我国上市中小商业银行竞争力进行实证分析,用多元线性回归分析法对
目的分析阿托伐他汀联合曲美他嗪治疗冠心病稳定性心绞痛的临床疗效。方法选取2014年1月至2014年12月内蒙古自治区人民医院心内科收治的130例冠心病稳定性心绞痛患者为研究对
商业健康保险作为医疗保障体系的重要组成部分,能满足居民多方位、高质量的保障需求,对于实现医疗风险管控、提升服务效率、完善健康管理以及推进医疗改革等方面都有重要作用
<正>糖尿病在老年人群中很常见,它是因体内胰岛素绝对或相对缺乏而引起的全身代谢性疾病,老年性糖尿病发展缓慢,病情轻而隐匿,症状不明显,合并心血管病者较多,根据老年性糖尿
谈新时期统战工作向基层延伸的必然性王枝近十几年来,爱国统一战线在维护安定团结的政治局面,为改革开放和两个文明建设服务,促进祖国和平统一等方面,发挥了和正在发挥着巨大的推
目的探讨酒精性肝病患者心理特征及针对性护理措施。方法随机抽取我院于2018年3月至2019年3月收治的60例酒精性肝病患者为研究对象,均分析其主要的心理特征表现,并给予针对性