论文部分内容阅读
近年来,长非编码RNA(lncRNA)因其潜在的生物学功能而备受关注。借助高通量转录组测序技术(RNA-Seq),研究者已经在包括人、小鼠等哺乳动物在内的多种生物中发现了数以十万计的lncRNA。研究表明,lncRNA普遍具有低序列保守性和低表达水平的特点,因此难以直接建立序列与功能之间的联系。鉴于功能性非编码RNA(ncRNA)在二级结构层面具有保守性,由此推断功能相近的lncRNA的二级结构也同样具有一定程度的保守性。本文主要借助生物信息学方法,围绕lncRNA二级结构预测问题展开研究和开发。主要工作如下:(1)研究了主流的RNA二级结构预测方法(主要包括比较序列分析法、动态规划算法和基于机器学习的分类预测方法等类别),分析并比较了这些方法的优缺点。综述了主要的ncRNA序列和结构数据库,包括miRBase、GtRNAdb、RNaseP数据库、Rfam、GENCODE、lncRNAdb 和 NONCODE 等。(2)在此基础上,提出RNA二级结构预测的评估系统(lncRScan-Fold-Assess),其主要功能包括:报告利用RNA二级结构预测方法预测得到的RNA二级结构信息、计算RNA二级结构预测方法的预测精度和比较不同的RNA二级结构预测方法的性能等。lncRScan-Fold-Assess 提供了 RNAfold、MARNA、Mfold、Pfold、Sfold、RNAstructure 和CentroidFold七种主流的RNA二级结构预测方法的预测功能。(3)为了更好地将我们设计的RNA二级结构预测的评估系统用于科学研究。我们设计实验将 lncRScan-Fold-Assess 应用于 miRNA、tRNA、RNasePRNA、ncRNA 和 lncRNA,结果表明:在预测一组同源序列时,基于比较分析法的Pfold和质心法CentroidFold的效果明显优于基于最小自由能的RNAfold、mfold、Sfold和RNAStructure。但是,预测一条单个序列的时候,基于不同原理的预测方法得到的结果没有明显的差异。综上,用户利用lncRScan-Fold-Assess可以同时对多种RNA二级结构预测方法的性能进行评估,进而可以选择性能较好的方法输出结果,因此lncRScan-Fold-Assess可以帮助提高当前lncRNA二级结构预测的效率。