论文部分内容阅读
随着转录组和表观遗传学的发展,RNA在生命活动中扮演角色的重要性不断被科学家证实。通过对RNA结构的相似性分析,可以实现RNA分类,进而可以帮助我们了解RNA的一些生物功能。基因组学研究显示,人类基因组包括约30亿个碱基对,而能翻译成蛋白质的仅有2%,98%是功能多样的非编码RNA。非编码RNA功能须依赖于一定的结构,因此,从结构的角度发现和确定非编码RNA的功能是一个非常有意义的研究课题。相比于获取一级序列来说,确定非编码RNA的二级结构是有相当大难度的。目前生物学家发现对非编码RNA二级结构进行比较研究,不仅能够为在基因组中寻找新的非编码RNA提供支持,还能对非编码RNA的功能预测提供有价值的信息。因此寻找一种新的有效的非编码RNA二级结构相似性分析方法具有重要的现实意义。假结结构是RNA分子的一种特殊结构,科学家在研究过程中发现一些重要的生物活动依赖于具有假结结构的RNA分子。但由于假结结构的特点造成对其进行预测难度比较大,因此设计算法并利用计算机对带假结的RNA二级结构进行相似性分析,成为了一种更为经济、高效的探索假结结构功能的途径。本文主要以RNA二级结构之间的相似性为研究内容,给出了一种新的可视化表示方法和基于可视化表示的相似性分析方法,主要完成以下两个方面的工作:1)提出了一种新的动态的RNA二级结构3D图形表示法,给出该表示法具有的三种性质。基于该3D图形表示法,还给出了RNA二级结构特征序列对应点的坐标映射图,并从图中直接获取了特征序列碱基分布情况。2)基于3D图形表示法的性质,我们提取了36维特征向量来代表RNA二级结构。随后将算法应用到RNA二级结构的相似性分析上,实验测试数据有三组,第一组是九种病毒RNA二级结构;第二组是17个比较复杂的RNA二级结构和16个带假结RNA二级结构;第三组是60非编码RNA二级结构。实验结果表明本文提出的3D图形表示法不仅能够对带假结的RNA二级结进行有效的相似性分析,而且能够明显区分Rfam中不同家族非编码RNA二级结构间的差异性。最后与其他九种算法进行了比较,进一步证明了本文提出的动态的3D图形表示法的有效性。