论文部分内容阅读
伴随着科学技术的迅猛发展,同时人类基因工程计划(Human Genome Projec, HGP)也已经进行了全面实施,人们所获得的生物序列数据与日俱增,生物学的研究重点也逐步从积累数据过渡到分析解释这些数据。这其中蕴含着丰富的生物信息,能将它们管理好并从中提取尽可能多的信息是一项有意义的工作,因而很多数学家、生物学家和计算机科学家等多个领域的研究者都被吸引到生物信息这个新的交叉学科中来。而生物序列的比较是其中最重要、最基本的内容之一,因为很多其它的研究工作,像分子进化问题、蛋白质结构预测问题和基因识别问题等都是建立在上述工作的基础上。序列比对(sequence alignment)是分析生物序列的传统方法,而限于该分析方法自身存在的一些缺陷,非比对(alignment-free)方法作为其补充和改进而出现,并迅速发展成为计算分子生物学的研究热点之一。在此以DNA序列、蛋白质序列作为本文的研究对象,在图形表示和k词模型的基础上,提出了生物序列的一些新的非比对模型,并进行了相似性分析和进化树的构建。主要工作有以下几个方面:首先,在考虑到核苷酸化学结构分类的基础上,将已有的混沌游走表达(Chaos Game Representation,CGR)模型进行了改进,首次构建了DNA序列的三种CGR空间,得到了CGR-游走的数值序列,并提取了DNA序列的特征不变量。作为应用,对九个不同物种β基因外显子做了相似性分析,取得了较好的效果。我们的方法一方面可以作为DNA序列图形表示的有效补充,另一方面也可以视为CGR结果的改进。在该模型中首次将碱基的生物化学性质考虑进来,且图形表示直观,不变量易于计算,并且通过与已有的模型分析比较,我们的方法得到的结果更接近已知的生物事实,所以能够包含更丰富的生物信息。接下来,我们基于氨基酸的详细疏水-亲水(Hydrophilic-Hydrophobic,HP)模型,提出了蛋白质序列的双向量曲线(Dual Vector Curve,DV-Curve)表达方式,它是利用两个向量来表达蛋白质序列的一个氨基酸字符。通过建立数学模型,给出了DV-曲线表达和蛋白质序列之间的一一对应关系。这种图形表示不仅避免了退化性问题,而且对于长的序列也有着较好的可视化效果,并且曲线本身可以反映序列的长度。作为应用,一方面以不同物种的ND6蛋白质序列为例,利用它们的DV曲线进行了直观的图形相似性分析。另一方面,为了便于对蛋白质序列进行量化比较,构建了24维的特征向量,利用欧氏距离度量得到相似性矩阵,并构建了35条S结构蛋白的进化树。本文是首次将DV-Curve方法和详细的HP模型结合起来描述氨基酸序列,结果显示该模型对生物序列有着较好的刻画能力。在第五章中,我们提出了一种新的k词(k-word)模型来分析生物序列。由于在进化的过程中会存在碱基突变,当给出新的k词概率分布时需要去掉随机背景,最终得到了表征DNA序列的4k维的特征向量,并以48个HEV戊型肝炎病毒基因序列和26种胎盘哺乳动物线粒体的全基因组序列为例进行了分析,取得了较为满意的效果,并对字符串k的最优取值问题进行了探讨。