带假结RNA二级结构的预测算法研究进展

来源 :科学时代·上半月 | 被引量 : 0次 | 上传用户:hnfengzhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】假结是RNA分子结构中一类特殊三级结构且决定多种生物功能。早期的RNA结构预测算法为简化操作多避开假结仅研究二级结构,降低了预测结果的精确度。随着算法研究的逐步成熟,假结研究成为预测重点。文中介绍了近几年提出的四类带假结的RNA二级结构预测算法,通过对算法效率及精确度的比较展望了未来算法的发展方向。
  【关键词】RNA二级结构;假结;自由能;启发式算法
  上世纪八十年代Pleij与Kolk等人在对几种毒菌RNA分子的结构分析中,证实了假结作为一类复杂而稳定的RNA结构广泛存在于多种生物细胞中,是实现其功能的重要因素,如端粒酶RNA分子的活性取决于其假结结构、某些病毒细胞利用假结结构模仿宿主的tRNA分子入侵生物体[1]。因此,要分析RNA分子的真实结构,假结预测是必须解决的问题。为提高假结预测的准确性,1990年Pleij利用数学方法提出了14种理论上存在的RNA假结结构,并利用弧图进行了分析和归纳。2009年刘元宁等人在Pleij的基础上利用平面图对假结结构的表示法进行了改进[2]。由于假结种类繁多、结构复杂,在RNA二级结构研究早期假结预测就已被证明为NP-hard问题,经过对预测算法的不断完善,目前也只有发夹环与单链形成的H型假结可被精确预测 [3]。本文将重点介绍最新提出的几类带假结RNA二级结构预测算法,再对其预测精度、复杂度和假结预测能力进行比较,最后还将展望未来预测算法的发展方向。
  1.预测算法
  针对待测序列本身以自由能为评判标准,利用计算机算法预测可能的RNA二级结构,是目前预测算法的主要发展方向,本部分将介绍四类带假结的RNA二级结构预测算法。
  1.1 基于动态权重匹配的RNA折叠算法
  2008年陆健和刘海军等人提出基于动态权重匹配的RNA折叠算法(Dynamic Weighted Matching,DWM),该算法在重大权重匹配算法的基础上引入了与茎区长度相关的动态权重,并结合碱基配对的固定权重作为茎区筛选的检验标准,通过茎区优化组合的方式预测出包含假结的RNA二级结构[4]。在DWM算法中将动态权重和固定权重合称为复合权重,若给定一段茎区S(i,j,k),则其计算公式(1)如下:
  其中,第一项是配对碱基的固定权重之和,第二项为动态权重,其值由三类碱基配对的平均权重与茎区长度的平方根之积确定。DWM算法的运行流程是:首先在序列R=r1r2…rn中找出具有最大权重的茎区S(i,j,k),该茎区将序列分为三部分即:单链区L1(1,i),茎区S(i,j,k),单链区L2(j,n);然后分别L1、L2中搜索最大权重和茎区,如此递归搜索下去,直到序列首尾处的单链都不再具备形成茎区的条件为止;最后,再对第一次划分得到的单链L1,L2中尚未配对的碱基进行联合搜索,当搜索到最大权重茎区后再对剩余段继续递归搜索。该算法利用RNA回折规律,优先考虑短程碱基之间的配对,通过逐步搜索简化了自由能计算及算法复杂度,并且大幅提高了算法预测假结的能力。仿真实验结果表明,由于优先考虑短程碱基配对,DWM算法可以有效预测出tRNA序列的二级结构及假结,但针对非编码的RNA序列的预测效果则不理想[4]。
  1.2 RnaPredict算法
  RnaPredict算法是由Wiese等人于2002年提出的一类基于进化算法的RNA二级结构预测算法,其核心内容是利用十进制编码为初始种群中的单元结构(一个茎区及其顶端的发夹环)分配序号,然后利用选择、交叉、变异算子对结构集进行逐代优化,最终具备最小自由能的结构集即为预测到的RNA二级结构[5]。其后,Wiese等人对该算法进行了改进,2005年在文献[6]中尝试研究利用并行遗传算法提高计算效率,解决长链RNA序列的二级结构预测问题;2008年在文献[7]中对热力学模型进行了改进,提出了最近邻居模型(Individual Nearest Neighbor Model,INN)和最近邻居氢键模型(Individual Nearest Neighbor Hydrogen Bond Model,INN-HB),这两类模型额外考虑了各类碱基对组合对茎区稳定性的影响,以及不同碱基间形成的氢键对自由能的贡献;2009年在文献[8]中结合HotKnots的假结热力学模型利用进化算法尝试预测含假结的RNA二级结构并取得良好效果;2010年在文献[9]中将退火模拟算法与遗传算法相结合推
  1.3 ProbKnot算法
  2010年Bellaousov和Mathews等人提出了基于碱基配对概率的ProbKnot算法,该算法能够预测任意类型的假结,且时间复杂度仅为O(n2) [10]。算法原理是:首先利用机器学习法和热力学模型推导出一个用于计算碱基配对概率的配分函数,根据该配分函数计算出任意碱基i在其序列中的最大配对概率pmax(i);然后,搜索出当前拥有最大配对概率的碱基对(i,j),若p(i,j)=pmax(i)= pmax(j)则将该序列纳入到最终预测结构中;接着在剩余序列中沿用上述方法搜索最大概率配对碱基,直到没有符合配对条件的碱基为止;最后,对形成的结构进行合法性处理,即解除碱基对数量小于3的茎区,若两非法茎区间只存在一个由单碱基构成的凸环时,则优先考虑将两非法茎区合并为一个合法茎区。仿真实验表明,算法在预测长度小于700的RNA序列时运行时间不超过10分钟,且预测精度可达到60%以上。该算法的缺点是阳性检测概率低,这是由于算法仅以配对概率作为预测依据而对结构特征没有任何限制,因而阴性配对大量出现,影响了预测准确性。这一问题在后期Matthew和Mathews两人提出的TurboKnot算法中得到了改进[11],在TurboKnot算法中序列合成不仅依赖于碱基配对概率,另外还引入了同源序列的结构特征数据,从而提高了检测的准确性。   1.4 MCGenus算法
  McGenus算法于2013年由Micheal和Micheletti等人提出,该算法利用基于随机搜索的蒙特卡罗算法,以最小自由能为依据预测RNA二级结构[12]。该算法可预测长度小于1000的RNA序列,其不限制假结类型。算法流程是:先根据给定序列计算出所有可能的单元结构集{h1,h2,…hN},该单元结构中包括一个规模为1的凸环或规模为1×1的内环,并计算出其自由能贡献为e(hi),然后由算法随机生成一个由0和1构成的序列{δ1, δ2,…δN},其中δi对应hi,当δi=1则表示对应单元结构入选待测结构,反之则未被选中。在初始序列中有且仅有一个单元结构被选中。随后进入蒙特卡罗迭代过程,在迭代过程中算法按概率W选中单元结构做移入或移出操作,其选择移入移出操作的标准为自由能F的增减,其中概率w和自由能F的计算公式(2)、(3)如下:
  2.算法性能比较
  本部分将就上述四类算法的仿真实验结果进行比较,内容包括算法时间复杂度、空间复杂度、算法运行时长、敏感度、特异性等方面,比较结果如表1所示。四类算法中效率最高的是ProbKnot;针对短序列时DWM算法的精确度最高,但该算法无法预测长链序列;针对长链序列则ProbKnot算法相对性能较好。此外,除DWM算法外,其余算法均提供了基于对应算法的RNA二级结构预测工具,方便后续研究者做实验数据对比。
  3.总结及展望
  本文介绍了四类带假结RNA二级结构预测算法,算法体现了较好的预测效率和精度。在假结预测方面,排除了对假结类型的限制,但预测结果不算理想,例如,精度最高的ProbKnot算法其假结预测精度也不到5%。此外,算法的效率也有待提高,如RnaPredict算法基本没有提到其在运算时间上的表现;ProbKnot算法预测长度为2904的RNA序列二级结构时用时63 min 18.6 sec;MCGenus算法需在并行计算机上才能达到表1所述的运行效率。因此,在今后的RNA二级结构预测算法研究中,应从提高假结预测精度及简化算法复杂度两方面提高算法的精度与效率。可行的提高途径包括:(1)利用愈发先进的物理化学实验手段提高对RNA结构的认识,优化热力学模型参数特别是假结数据;(2)通过对已知结构序列的分析,细化RNA自我折叠的过程,提高算法的仿真程度进而提高预测精度;(3)利用多种算法设计混合预测算法,使其综合各家之长,互补其短,提高算法预测的精度及效率。
  参考文献:
  [1]van-Batenburg F H, Gultyaev A P, Pleij C W. PseudoBase: structural information on RNA pseudoknots[J].Nucleic Acids Research,2001,29(1):194-195.
  [2]刘元宁,张浩,李志,崔广迪,苗轶蝉.RNA假结结构分析[J].吉林大学学报(工学版),2009,39(1):265-269.
  [3]A P Gultyaev, F H D van Batenburg, C W A Pleij. An approximation of loop free energy values of RNA h-pseudoknots[J].RNA,1999,5(1):609-617.
  [4]陆健,刘海军,姚勤,等.基于动态权重匹配的RNA折叠算法[J].生物数学学报, 2008,23(4):
  743-749.
  [5]Kay C Wiese, E Glen. A permutation base genetic algorithm for RNA secondary structure prediction[C].Advances in Artificial Intelligence,2002.
  [6]Kay C Wiese, Andrew Hendriks, Alain Deschênes, Belgacem Ben Youssef. P-RnaPredict-A parallel evolutionary algorithm for RNA folding:effects of pseudorandom number quality[J].IEEE Transactions on NanoBioscience,2005,4(3):219-227.
  [7]Kay C Wiese, Alain A Deschenes, Andrew G Hendriks. RnaPredict—An evolutionary algorithm for RNA secondary structure prediction[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2008,5(1):25-41.
  [8]Kay C Wiese, A Hendriks. RNA pseudoknot prediction via an evolutionary algorithm[C].IEEE Congress on Evolutionary Computation,2009.
  [9]Herbert H Tsang, Kay C Wiese. SARNA-Predict:Accuracy improvement of RNA secondary structure prediction using permutation-based simulated annealing[J].IEEE/ACM Transactions on Computational Bioilgy and Bioinformatics,2010,7(4):727-740.
  [10]Statslav Bellaousov, David H Mathews. ProbKnot:Fast prediction of RNA secondary structure including pseudoknots[J].Bioinformatics,2010,16(10):1870-1880.
  [11]Matthew G Seetin, David H Mathews. TurboKnot: rapid prediction of conserved RNA secondary structures including pseudoknots [J].Bioinformatics,2012,28(6):792-798.
  [12]M. Bon, C Micheletti, H Orland. McGenus: A monte carlo algorithm to predict RNA secondary structures with pseudoknots [J].Nucleic Acids Research,2013,41(3):1895-1900.
其他文献
一双大如珍珠的眼睛,一个挺挺的鼻子,一张能说会道的小嘴。这个女孩就是我。我叫黄晓茜,今年9岁,拥有“双面胶”的性格。  在外人面前,我非常文静腼腆。有一次,妈妈带我去她同事——李阿姨家里作客。一进屋,我微微一笑,甜甜地问好。李阿姨夸我真乖,请我坐下。我坐在沙发上,心跳加速,双腿并拢,腰杆挺直,一动也不敢动。李阿姨问一句,我才答一句,绝不多说,好像生怕一开口就说错话。李阿姨家里人都称赞我礼貌,文静。
期刊
【摘 要】本篇文章主要是将某大楼的局部劲性钢筋混凝土柱体施工作为案例,来对于劲性钢筋混凝土柱体施工措施所涉及到的具体施工流程进行了全面详细的探讨,并对该工艺施工所产生的实际施工效果进行了阐述。  【关键词】劲性钢筋混凝土柱;大体积混凝土;焊接法;垂直度  劲性钢筋混凝土柱体是我国当前工程体系发展过程中,所衍生出的一种高性能柱体结构,该结构本身所表现出的结构性能远远超出传统形式下的钢筋混凝土柱体性能
【摘 要】温度是很多控制系统中需要检测的环境参量,与人民的日常生活及工业生产都密切相关,如何对温度进行实时、有效的监测与控制是值得深入研究的。针对传统的温度计设计系统存在设计复杂且不利于小型化等缺点,本文以PSoC经典芯片CY8C29466为主控制器,以PSoC Designer为编程开发环境,选用模拟量温度传感器LM35测温,设计开发了基于PSoC的远程温度计。结果表明,该系统电路简单灵活,可靠
【摘 要】结合多年的实际施工经验,就钢筋混凝土剪力墙的施工质量控制,谈了一些自己的一些心得体会,希望能为相关人士提供借鉴。  【关键词】钢筋混凝土;剪力墙;施工质量;控制  随着高层建筑的不断出现,高强混凝土的运用越来越广泛,但高强混凝土的施工质量不易控制,本文研究了剪力墙高强混凝土的施工质量控制要点,并以某高层建筑工程为例,探讨了这些施工要点和措施的实施,实例证明,这些要点和措施能够比较好的保证
【摘 要】运用物理性质测量系统(PPMS)研究了300 K下TbFe2立方Laves相合金的磁致伸缩值随外加磁场的变化特性。结果表明,TbFe2合金的磁致伸缩值随着场强的增加而增加。同时,随着场强的增加致70 kOe,TbFe2合金的磁致伸缩值将达到2000 ppm。尽管在70 kOe大的场强下,TbFe2合金的磁致伸缩仍未达到饱和这说明了TbFe2合金在室温下具有相当大的磁晶各向异性。  【关键
【摘 要】经济在发展,社会在进步,越来越多高科技事物的涌入,以及改革开放所带来的国际国内两个市场的企业之间的竞争,使企业的压力越来越大,立足于路桥施工领域的企业尤其如此,企业永远以盈利为目的,因此如何在激烈的市场竞争中立足,并且保证盈利成了一个重要的问题,路桥施工领域的企业保证盈利的方法,最直接的方法就是降低施工成本,下面我们我们将从如何将桥梁质量的保证与节约成本有效结合的方面展开讨论。  【关键
本文针对我国政策上、口号上所谓的素质教育却不能满足社会不断进步所要面临的国防、科研等领域的高素质人才需求进行浅谈.我们的学生比以往任务更艰巨,需要面临中考、高考、
【摘 要】经济的迅速发展带动了建筑行业的繁荣,同时随着人们生活水平的不断提高以及科学技术的迅猛发展,对建筑行业提出了更高的要求,无论从建筑风格还是施工质量上都有着更深层次的要求,这就要求我们不断的改进建筑施工技术。建筑工程测量作为工程测量的一种类型对于整个建筑施工工程具有十分重要的意义,改进建筑工程测量技术能在很大程度上提高施工质量。  【关键词】建筑工程测量;数字测量技术;实际应用  0.前言 
随着新课标的深入推行,英语教学发生了深刻的变化,英语口语越来越受到师生的重视.其间出现了一些阻碍口语训练的不利因素,这为教师的施教提出了更高的要求. With the deepen