论文部分内容阅读
蛋白质空间结构的所有信息均隐藏在蛋白质的线性结构里面,确切的说,均隐藏在氨基酸序列里面.于是研究蛋白质序列就成了生物信息学研究领域的一个关键问题.目前已经发现的构成蛋白质分子链上的氨基酸类型有20多种,直接研究蛋白质分子的折叠问题有困难,用分类法研究蛋白质结构,已有多种尝试,三联子串(氨基酸)依据其物理和化学特征,或者是依据氨基酸的空间结构特征来进行的不同的分类方式,分类的依据和偏重不同,分类结果也不同.而这些分类事实上是一种状态合并的问题,即将具有一定关联的对象合并到一个类中,不同的分类对应着不同的粒度划分.在实际问题求解中,粒度划分是动态的,常用的氨基酸分类方法都是静态的.
本文在粒度观点之下,结合Markov模型和已有氨基酸分类,对氨基酸连接偏好性及蛋白质分类进行了一系列分析、研究.
首先本文在Markov模型的基础上,提出了状态空间上合并映射的概念,以及合并过程下转移概率的计算方法.在已有氨基酸分类的基础上,结合Markov模型的概率转移矩阵,对氨基酸连接的偏好性进行了研究.结果表明:同一家族的蛋白质序列的氨基酸连接具有一定的偏好性,这种偏好性与氨基酸的分类有关,从而进一步说明了分类的合理性,同时这种偏好性对氨基酸序列的预测具有一定的作用;
其次木聚糖酶家族蛋白质序列的氨基酸连接偏好性的研究表明:对于该家族的蛋白质序列而言,将氨基酸分成四类来研究更能反映其规律.本文基于经典HP模型(即分四类的情况),提出了一种新的蛋白质序列的比对方法,即蛋白质序列的矩阵图谱表达法(MGR),并给出了两蛋白质序列之间的欧氏距离计算的方法.通过对木聚糖酶F/10和G/11两家族的蛋白质序列的相似性分析、研究表明:被划分为同一木聚糖酶家族的蛋白质序列之间的相似性更大,而且蛋白质序列的相似性程度与分子大小、结构和分子进化相关;
最后基于距离结构聚类的算法对F/10和G/11两个家族的蛋白质序列进行了聚类分析,并确定了最佳的聚类方法.对F/10家族而言,分成三类的时候是最优的,对于G/11家族而言,分成五类是最优的.这为同一家族的蛋白质进行进一步分类分析提供了定量的依据.
本文在如下方面具有创新特色:
(1)提出了Markov模型状态空间上合并映射的概念,以及合并过程下转移概率的计算方法,对氨基酸连接的偏好性进行了研究.为蛋白质序列预测提供了依据.
(2)提出了一种新的蛋白质序列的比对方法,即蛋白质序列的矩阵图谱表达法(MGR),并给出了两蛋白质序列之间的欧氏距离计算方法.同时对F/10和G/11两个家族的蛋白质序列进行了聚类分析.