论文部分内容阅读
核糖核酸(Ribonucleic Acid,缩写为RNA)是非常重要的生物大分子之一,它参与蛋白质的合成,具有酶的催化作用,且携带遗传信息,在生命过程中起着举足轻重的作用。随着研究人员对RNA研究的深入,越来越多的人们认识到RNA的结构和功能并不亚于DNA对于遗传的重要性,甚至比DNA还要重要。通过比对RNA的一级序列和二级结构来确定RNA的生物功能是目前很重要的研究课题,RNA二级结构间相似程度的研究便成了此课题的热点话题之一。然而,获得RNA二级结构或三级结构信息并非易事,采用生物实验的方法代价高,不易普及和推广。所以,许多研究者采用生物信息学的研究手段,利用计算机科学技术存储分析RNA数据以预测RNA二级结构,并取得了很好的成绩,多款RNA二级结构的预测软件也应运而生。本文主要是在RNA二级结构已知的情况下,以RNA分子之间的结构比较、相似性计算为研究内容。首先介绍选题的背景、意义以及国内外的研究现状。然后阐述了RNA二级结构相似性的计算方法及常用的聚类算法,主要讨论了基于字符串比较,基于树的拓扑结构,基于图形表示法和基于L-Z复杂度的相似性分析方法。在讨论各种RNA二级结构表示方法的基础上为方便获取研究RNA时所需的CT文件,给出了RNA二级结构点括号图和CT文件之间的相互转化算法。有些RNA二级结构表示法只考虑了结构,而没有考虑其结点上携带的信息,为此本文提出了既考虑RNA二级结构间的语义信息,又考虑他们之间的结构信息,被称为语义结构图的表示方法,来表示RNA二级结构。在语义结构图表示的基础上,寻找最大子路径,并计算两两路径的相似程度,从而得到RNA二级结构的相似性。论文中对Rfam数据库中10个家族2000多个RNA分子的混合数据进行实例验证,计算获得了相似性数据矩阵,并根据相似性矩阵进行层次聚类分析,取得了很好的聚类分析的实验结果。