基于比较序列分析的RNA二级结构预测与评估

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:easelin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着越来越多非编码基因及其功能被识别和揭示,人们逐渐认识到非编码RNA和蛋白质分子一样重要,甚至是主要的功能性分子。二级结构预测是非编码RNA识别及其功能研究的根本途径与核心基础,因此RNA二级结构预测方法的研究具有重要的科学意义。基于比较序列分析的RNA二级结构预测方法精度最高、效果最好、应用最普遍。在这一类方法中,算法的输入是一组同源RNA序列或由它们组成的RNA多序列比对,算法的目标是求出所有RNA序列共有的最优二级结构。目前,基于比较序列分析的RNA二级结构预测方法还存在以下五个问题:(1)如何降低二级结构检测或预测算法的计算复杂度,同时又能保证算法的精度?(2)如何设计基于生物知识的、启发式的二级结构预测算法?(3)如何构建高质量、高精度的RNA多序列比对,以提高二级结构预测的精度?(4)如何在二级结构预测算法中引入更多更详细的参考信息(如系统进化信息)以提高算法的精度?(5)如何在二级结构的预测过程中对得到的二级结构进行评估,从而给出精度更高、可信度更大的预测结果?本文针对以上问题进行了深入的分析和研究,分别提出和实现了相应的解决方法,并在相应的数据集上对它们进行了测试验证和比较分析。本文的主要工作和创新之处概括如下:(1)提出位置矩阵和位置向量的概念及理论。本文提出的位置矩阵是一种特殊的n×n矩阵,n为RNA序列或RNA多序列比对的长度,矩阵的类型有两种:单个RNA序列的位置矩阵和RNA多序列比对的位置矩阵。单个RNA序列的位置矩阵元素取值类型有三种:0、1、-1,通过检测矩阵的行中连续非0区域,可以方便准确地识别出RNA序列中连续碱基配对区域(即stem)。RNA多序列比对的位置矩阵元素取值类型有两种:0、1,通过检测矩阵的行中连续“1”区域,可以方便准确地识别出RNA多序列比对中保守的连续碱基配对区域(即保守stem)。本文提出的位置向量是一种特殊的n维向量,n为RNA序列或RNA多序列比对的长度,位置向量的类型有两种:单个RNA序列的位置向量和RNA多序列比对的位置向量。位置矩阵记录了RNA序列或RNA多序列比对的全部可能的折叠方式,位置向量则记录了RNA序列或RNA多序列比对在某种折叠方式下的具体二级结构。理论分析和数值实验表明,上述理论能够有效地帮助解决RNA二级结构预测中的若干相关问题。(2)提出基于信噪比度量的RNA二级结构评估方法。stem是RNA二级结构的最基本组成单元,本文以stem而非整个二级结构为建模对象,针对不同问题,提出不同的评估算法,并应用到相应问题的解决方法中。概括起来,本文提出的RNA二级结构评估算法可以分为两类:针对RNA序列中stem的评估算法和针对RNA多序列比对中保守stem的评估算法。对于前者,本文以stem中包含的碱基对个数为参考计算信噪比值Signal-to-Noise;对于后者,本文以保守stem中包含的所谓“列对”个数为参考计算信噪比值Signal-to-Noise。数值实验表明,这两类评估算法在相应问题的解决中均能有效地改善相应方法的性能。(3)提出基于多序列比对的RNA二级结构检测与评估方法。RNA二级结构检测是识别非编码RNA的关键过程,本文以RNA多序列比对为处理对象,采用比较序列分析策略,利用位置矩阵、位置向量理论和信噪比度量方法,提出基于保守stem检测与评估的RNA二级结构检测与评估算法。理论分析和数值实验表明,本文方法均优于主流方法QRNA和ddbRNA。与QRNA相比,本文方法具有计算复杂度低、适于RNA多序列比对(包含两条以上序列)和敏感性高等优点;与ddbRNA相比,本文方法具有敏感性和特异性均高、适于包含空位的RNA多序列比对等优点。(4)提出基于位置矩阵和位置向量的RNA二级结构预测方法。这是本文提出的位置矩阵和位置向量理论在RNA二级结构预测中的直接应用。首先,论文提出一种基于“种子-扩展”的启发式RNA二级结构预测方法;其次,论文提出一种基于保守stem检测与评估的混合式RNA二级结构预测方法。对于每一种方法,论文分别在不同的输入(RNA多序列比对或未比对的同源RNA序列集合)情况下,给出了不同的具体实现算法。对于每个算法,论文均给出了相应的数值实验和性能分析。实验结果表明:在以RNA多序列比对为输入的情况下,两种方法均优于同类方法RNAalifold;在以未比对的同源RNA序列集合为输入的情况下,两种方法均优于同类方法Mfold。(5)提出基于位置矩阵和位置向量的RNA多序列结构比对构建方法。构建高质量的RNA多序列结构比对是基于比较序列分析的RNA二级结构预测方法中关键步骤。本文以位置矩阵、位置向量理论和信噪比度量为基本方法,以“种子-扩展”为基本思想,以未比对的同源RNA序列集合为输入,提出一种基于保守stem检测与评估的RNA多序列结构比对构建方法。论文首先阐述了RNA序列的结构比对问题,然后给出了本文方法的详细描述,最后给出了该方法的数值实验和性能分析,实验结果表明:该方法明显优于当前主流方法Clustal W。(6)提出基于上下文无关随机文法和系统进化分析的RNA二级结构预测方法。系统进化信息是生物序列分析中重要的参考信息。本文通过把更加丰富、复杂的同源RNA序列系统进化信息融合到RNA二级结构预测过程中,提出一种新的混合RNA二级结构预测方法。首先,论文定义了新的剖面上下文无关随机文法,以实现对RNA多序列比对及其一致二级结构的建模;其次,论文定义了两个不同的隐马氏模型,分别对RNA序列的非结构区域和结构区域的系统进化过程进行建模;最后,论文通过把此二个隐马氏模型融合到新定义的剖面上下文无关随机文法中,提出一种新的全概率模型以计算最优一致二级结构。数值实验表明:本文提出的方法优于当前主流方法Pfold,尤其当输入的RNA多序列比对中包含的序列个数更多、空位更多、序列保守性更低时,这种优势更加明显。
其他文献
在《废都》中,老头、牛、牛老太太承担了形而上的精神使命,表现了作者冷静、超越的创作态度,尽情展现了社会现实的弊端、知识分子精神家园的失落等。从三者的隐喻中我们可以看到
在河北省实施城乡三年大变样之际,城乡道路、街道、庭院、单位、公共场所等环境的绿化、美化就显得尤为重要。结合该省的气候、土壤地力条件,推出了耐盐碱、耐寒、耐涝、抗风
瑞士语言学家费尔特南.德.索绪尔是现代语言学理论的奠基人,他所持的结构主义语言观影响巨大。本文将从符号与系统两个方面阐述索绪尔的语言观及其产生的影响。
作为一种跨语言、跨文化的交际活动,翻译无论在何时何地都具有伦理属性。在当今多元文化共同发展的大背景下,翻译活动的伦理问题更加凸显。1984年,法国著名的语言学家翻译家
<正>江苏宏达新材料股份公司日前发布公告称,终止与科创控股集团有限公司正在实施的重大资产重组。其原因是本次标的资产范围较广,子公司较多,权属关系复杂,重组所需的相关拟
随着老龄化进程快速发展,老年痴呆症患者人数逐年增加,而随着老年痴呆症病程的发展,并发症也会相伴而来。老年痴呆并发症的出现加重了家庭照护负担。因此,如何有效应对老年痴呆并发症,憶成为缓解老年痴呆症患者家庭照护负担关键。然而,目前从家庭照护的角度去探讨老年痴呆并发症的应对策略的研究还较少,特别是站在家庭照顾者的角度理解他们照护策略的研究更是无人问津。针对于此,本研究拟从家庭照顾者的角度出发考察他们应对
《坠落的人》是美国后现代小说家德里罗创作于2007年的“9&#183;11”定义之作,被《泰晤士报》称为献给“9&#183;11”之后纽约和坠落者的一首圣歌。在这部作品中,德里罗细致地描
希尔伯特C*模与希尔伯特空间有许多相似的性质.通过对希尔伯特空间中不等式的研究,本文首先将希尔伯特空间中的一些已知的不等式推广到希尔伯特C*模上。然后又根据推广中总结
通过对辽宁西部地区几所高职院校2006级的学生在2006年度的体质测试结果进行统计分析和评价,了解了辽宁西部地区高职院校学生体质健康状况及其特点,提出了学校应把《学生体质
本文以明清北京城平面布局、明清故宫建筑布局及北京传统四合院空间布局为例,分析了中国老北京传统建筑布局折射的礼制的思想及其对现代建筑的影响。