论文部分内容阅读
本文以生物序列的比较分析为背景,提出了一些新的图形表示,为生物序列的分类、分析、比较和储存等研究提供新的方法。另外,还展示了这些表示法在生物序列的相似性分析和构建进化树等问题上的具体应用。本文主要研究内容可以概括如下:
1.将DNA序列和氨基酸序列转化为2-D图形表示。DNA序列和氨基酸序列转化的二维图形类似于分子结构图,由此借助化学计量学方法计算了在经过转换所得图的基础上衍生出图的不变量(数学不变量)-Balaban指数和信息分布指数以及图对应的图论距离矩阵的平均频带宽度。并利用这些拓扑指数作为DNA序列和氨基酸序列的不变量分析了9个物种的β-球蛋白(globin)基因的第一个外显子DNA序列和6种yar029w等氨基酸序列的相似性和非相似性。
2.用1-D随机游动来描述DNA序列,得到了DNA序列对应的两个随机序列{Ym}和{Xn},进而验证了两个随机序列{Ym}和{Xn}都具有马尔可夫性,同时也得到了DNA序列的1-D游动曲线表示。基于DNA序列的图形表示以及马尔可夫链的转移概率分布、信息熵和随机序列的数字特征(均协方差)得到了DNA序列的一些新的数学不变量,进而利用这些数学不变量来比较了9个不同物种的β-球蛋白基因的第一个外显子的DNA序列的相似性。
3.现有的方法一般是基于多个序列的比对来构建物种进化树,作者提出了一种新的方法:在DNA序列的三维图形表示的基础上,利用图的不变量给出了序列之间的距离度量,进而定义了物种进化距离,并利用基于距离法的NJ算法构建了生物系统进化树。选取30个物种线粒体DNA序列为材料,得到的结果与传统的根据物种形态和其他方法构建的系统进化树基本一致。
4.在复平面上用二维随机游动来描述了RNA二级结构序列,得到了对应的随机游动曲线和随机复数字序列。在6-D空间中定义了使核苷酸集与点集之间一一对应的函数,进而利用这个函数在6-D空间中得到了RNA二级结构的6-D表示,然后基于6-D表示把它转化为矩阵表示和特征向量表示。并利用RNA二级结构对应的随机复数字序列的数字特征:模和相位,以及矩阵不变量:矩阵的最大特征值,特征向量来表征序列并且分析了AIMV-3等9种病毒的RNA二级结构序列的相似性。
5.给出了把RNA二级结构序列映射为“波谱线”和“Z型曲线”表示的三个递归公式。利用这三个递归公式给出了RNA二级结构序列的1-D、2-D和3-D图形表示,进一步利用1-D图形表示给出了关于RNA二级结构序列频谱分析的方法。
6.在DNA三联体密码子表示的基础上,在半复平面上给出了蛋白质序列的非退化的2-D图形表示,同时利用复向量的主要特征-模和相位,给出了蛋白质序列的一种数值刻划。进一步在3-D空间里,把20种氨基酸分别分配给正12面体的20个顶点,根据正12面体的对称性得到了20种氨基酸的3-D表示,进而得到了蛋白质序列的3-D图形表示和对应的数字序列,并利用图的不变量和数字序列的特征比较了9种动物的神经元基因序列的相似性并构建了一组细胞色素C蛋白质的序列进化树。