RNA二级结构相关预测与ncRNA家族识别方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:dza1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
核糖核酸(Ribo Nucleic Acid,RNA)是生物体中重要的生物大分子,可以通过催化、翻译、基因调控等多种方式参与生命活动和复杂疾病的发生发展。研究表明RNA二级结构影响RNA与其他分子的交互和功能的发挥,同时相同家族的非编码RNA(non-coding RNA,ncRNA)具有相似的功能,因此预测RNA二级结构相关内容以及识别ncRNA家族可以促进RNA功能的研究。在RNA二级结构相关预测中,基于生物实验的方法虽然可以获得RNA二级结构轮廓(RNA碱基单双链状态)和RNA二级结构(RNA碱基配对信息),但该方法周期长、成本高且可操作性差。基于计算的方法,CROSS方法可以完成RNA二级结构轮廓预测,但较差的网络结构使其性能偏低,大量的单序列和多序列方法可以完成RNA二级结构预测。单序列方法操作简单且适用范围广,但由于自由能计算方式以及参数不精确,使其性能偏低且预测结构大部分不含假结或仅含部分特定假结;多序列方法在存在较高质量先验知识时性能较高,但当先验知识缺乏或质量较差时无法有效完成预测其适用范围受限。在ncRNA家族识别中,基于生物实验的方法费时费力无法满足大量数据的需求。基于计算的方法主要通过序列比对或学习结构特征的方式识别ncRNA家族。Infernal是基于序列比对的代表性方法,虽然具有较高的正确率,但需要二级结构标注的数据辅助完成预测并且无法有效处理假结,使其适用范围受限且操作复杂。基于特征学习的方法不仅具有较复杂的预测流程,而且由于预测的二级结构不准确使其正确率较低。因此当前不管是生物实验方法还是计算方法均无法比较完善的解决RNA二级结构相关预测以及ncRNA家族识别的问题,需要提出新的基于计算的预测方法快速高效完成预测。综上本文针对基于计算的RNA二级结构相关预测和ncRNA家族识别方法进行研究,主要研究内容如下:(1)基于深度学习的RNA二级结构轮廓预测方法研究RNA二级结构轮廓记录着RNA序列中每个碱基是否配对的信息,精确的预测RNA二级结构轮廓不仅可以促进RNA二级结构的预测,而且可以辅助确认RNA靶位点的信息,同时现存的多种预测方法存在周期长、成本高、性能偏低等不同问题。基于此,本文提出一种基于深度学习的方法RPRes预测RNA二级结构轮廓。RPRes由两部分组成,第一部分基于双向长短期记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)创建模型将每一个碱基及其上下文信息编码为格式相同的数据,第二部分基于残差神经网络(Residual Neural Network,Res Net)创建模型提取学习第一部分的输出数据特征并对其进行分类。实验结果表明,该方法不仅可以快速高效的完成RNA二级结构轮廓预测,而且在性能和泛化能力上有了较大的提升。(2)基于深度学习与新型最大碱基配对原则的带假结RNA二级结构预测方法研究带假结的RNA二级结构预测是一个难点问题,很多方法的预测结构不含假结或仅含一些特殊假结。基于此,本文提出一种基于深度学习与新型最大碱基配对原则的带假结RNA二级结构预测方法DMfold。DMfold首先创建深度学习模型,将每一个碱基预测为其对应的扩展点括号形式,然后提出一种新型最大碱基配对原则,该原则将带假结的结构视为三种嵌套子结构的组合,并设计新型规则通过扩展点括号分别寻找每一类正确配对最多的嵌套子结构,最后合并三个嵌套子结构获得带假结的预测结果。实验结果表明,DMfold不仅可以预测所有类型的假结,而且在多个家族中达到了很好的预测效果。(3)基于多目标遗传算法的RNA二级结构预测方法研究RNA二级结构自由能计算方式以及参数的不准确是造成很多单序列方法性能无法进一步提升的关键问题,同时多序列方法以及DMfold方法仅依靠先验知识预测结构的方式限制了其适用范围。基于此,本文提出一种基于多目标遗传算法的RNA二级结构预测方法MGAfold。MGAfold首先利用深度学习模型将RNA的每个碱基预测为对应的点括号信息,基于预测的点括号信息和结构自由能参数设计两个适应度函数约束结构的预测。然后设计一个多目标优化遗传算法,以点括号适应度函数值最高和自由能适应度函数值最低为优化目标进行迭代优化,输出最优及次优的多个预测结果。实验结果表明,该方法具有较广的适用范围且相比于多种优秀的方法性能得到了较大的提升。(4)基于静态深度学习模型的ncRNA家族识别方法研究现存的ncRNA家族识别方法具有流程复杂、适用范围受限、以及特征不准确影响性能等多个问题。基于此,本文提出一种基于静态深度学习模型的方法ncRFP识别ncRNA家族。ncRFP直接以ncRNA序列作为输入数据,其首先将每一条序列预处理为长度相同的数据,然后创建一个静态深度学习模型直接提取序列特征识别ncRNA家族。ncRFP主要包括两部分:第一部分基于Bi-LSTM和注意力机制创建模型,将方法注意到每一条序列的重要片段上并将其编码为格式相同的数据,第二部分基于全连接神经网络提取学习第一部分输出数据的特征并将其进行分类。实验结果表明,ncRFP不仅简化了识别流程,而且性能超过了多种已有方法。(5)基于动态深度学习模型的ncRNA家族识别方法研究在ncRFP的静态深度学习模型中,由于输入数据经过了截取和填充造成了特征损失和噪声引入影响了性能。基于此,本文提出一种基于动态深度学习模型的方法nc DLRES来适应不同长度ncRNA序列的需求。nc DLRES主要包括两部分:第一部分基于动态LSTM和注意力机制创建模型,将不同长度的ncRNA序列进行编码并将方法聚焦在ncRNA序列重要的片段上,第二部分基于Res Net创建模型提取学习第一部分的输出特征并将其进行分类。实验结果表明,相比于ncRFP,nc DLRES的性能有了进一步的提升。
其他文献
研究背景心血管系统疾病是全球范围内导致患者死亡的主要原因,其中缺血性心脏病是其中的重要组成部分。氧化应激是缺血性心脏病发生发展过程中的一种负面作用,可以导致心肌细胞发生不可逆的损伤甚至死亡。氧化应激通过多种途径激活心肌细胞自噬,适度的自噬可以维持心肌细胞功能,但过度的细胞自噬会诱导心肌细胞发生死亡。ATG12蛋白是自噬过程中类泛素偶联系统的重要组成部分,它直接参与了自噬体膜的形成过程。深入探究氧化
学位
研究背景:急性肾损伤(Acute kidney injury,AKI)幸存者中会有部分患者发生肾脏纤维化,并逐渐进展至慢性肾脏病(Chronic kidney disease,CKD)和终末期肾病,这给国家医疗和个人家庭带来沉重的经济负担。损伤后修复不良的肾小管上皮细胞是肾脏纤维化的主要因素。肾小管上皮细胞重吸收功能的正常发挥需要大量的能量供应,因此含有丰富的线粒体,并且主要依赖于脂肪酸氧化(Fa
学位
牙周炎是发生在牙周支持组织的慢性炎症性疾病,导致牙槽骨进行性破坏,是成人失牙的主要原因。传统的牙周炎治疗手段,如龈上洁治术、龈下刮治术、翻瓣术和膜龈手术等,均以控制炎症和减少牙周袋深度为目的,而不能重建受损的牙周组织。引导组织再生术(GTR)是以修复牙周支持组织和创建新的牙周附着为目的的治疗手段,其原理是利用膜性材料作为物理屏障,防止牙龈上皮和结缔组织侵入缺损区,为牙周膜细胞和成骨细胞创造足够的空
学位
为了研究前黑色素小体蛋白17(pre-melanosomal protein 17,PMEL17)基因第10外显子上有关显性白羽突变的基因频率和基因型频率在雪域白鸡群体中的分布情况,试验采用PCR-RFLP方法分析基因型,利用POPGENE 1.32软件计算基因型和基因频率,用SPSS 20.0软件进行哈代-温伯格平衡适合性检验。结果表明:雪域白鸡群体中PMEL17基因有Ⅱ、Ii和ii 3种基因型
期刊
多发性硬化(MS)是一种以中枢神经系统(CNS)白质脱髓鞘为特征的自身免疫性疾病。目前MS的缓解期治疗以DMT药物为主,但其疗效有限,且可能出现严重的不良反应,因此探寻新的治疗方法极为重要。实验性自身免疫性脑脊髓炎(EAE)作为MS的经典动物模型,在MS的科学研究中被广泛应用。CD4+T细胞中的两种细胞亚型Th1、Th17可释放促炎性细胞因子,破坏血脑屏障,并向中枢迁移,诱导CNS炎症,导致白质脱
学位
变应性鼻炎(allergic rhinitis,AR)是指特应性个体鼻黏膜暴露于变应原后发生的主要由免疫球蛋白E(immunoglobulin E,Ig E)介导的的非感染性慢性炎性反应。AR主要表现为打喷嚏、鼻痒、鼻塞和流清水样涕等症状。流行病学调查表明,在过去的几十年中AR的发病率逐渐增加,目前影响全世界人口的10%~40%。AR不仅影响生活质量,也可造成巨大的社会经济负担,已经成为全球性健康
学位
背景及目的孢子丝菌病(Sporotrichosis)是申克孢子丝菌及其卢里变种引起的皮肤、皮下组织、黏膜及淋巴系统的感染性疾病,偶可播散至全身引起多系统的损害。近年来孢子丝菌病发病率逐年上升,目前常用的治疗方法主要有抗真菌药物、光动力、温热疗法、冷冻和外科手术等,但效果不尽人意。随着对孢子丝菌病发病机制研究的不断深入,人们发现NOD样受体热蛋白结构域相关蛋白 3(NOD-like receptor
学位
报纸
目的:1.建立局部视网膜内铁离子过载的动物模型。探究视网膜内铁离子过载导致的视网膜退行性改变。2.探究视网膜内铁离子过载导致年龄相关性黄斑变性(Age-related macular degeneration,AMD)的发生机制。3.探究氘代二十二碳六烯酸(Deuterated-docosahexaenoic acid,D-DHA)对铁离子导致AMD改变的保护作用。4.探究膜铁转运蛋白和铜蓝蛋白对
学位
生物医学文献是生物医学领域获取知识的主要来源,这些丰富的知识在推动着健康、治疗理念、预防保健以及医疗管理等方面有着重要意义。呈指数级速度增长的医学文献因所涉及的内容巨大,已远远超出人类以传统方式获取知识的能力。从海量的电子文献中准确地获取有价值的、关键的医学知识,成为研究热点。本文针对信息抽取中语义信息丢失、外部资源利用不充分以及样本信息利用率不高等问题,以生物医学文本信息表示、语义知识利用及深度
学位