论文部分内容阅读
蛋白质是生命的物质基础。如何理解蛋白质序列,结构和功能三者的关系是生物信息学研究的重要问题。本文致力于研究蛋白质序列和结构,序列和功能之间的关系。本研究主要结果由以下四部分组成:
㈠提出了一个快速的蛋白质结构比对算法。通过利用蛋白质残基的二面角来代表蛋白质的三维结构,利用动态时间规整(Dynamic Time Warping,DTW)来比对二面角序列。我们证明了在PDB-select数据库中不同蛋白质比对后的得分服从参数为μ=94.7697,σ=41.5837,ζ=0.1925的广义的极值分布(Generalized ExtremeValue Distribution,GEVD).通过该分布还可以计算蛋白质结构比对的结构差异性的统计显著性。该比对得分对蛋白质分类还有很好的应用。和其他结构比对算法如CTSS等相比,我们的算法更具有统计意义和时间效率。
㈡蛋白在细胞生命活动中扮演着重要的角色。为了利用序列信息来区分膜蛋白功能,我们提出一种基于快速傅里叶变换特征的机器学习方法对来自膜转运蛋白分类数据库(Transport Classification Database,TCDB)中的三类主要膜转运蛋白进行功能分类。使用快速傅罩叶变换(Fast Fourier Transform,FFT)将20种氨基酸的分布,残基的疏水性,平均极性和溶剂化自由能的原始特征数据,转化为频域上的信息作为支持向量机的输入。我们的模型在五倍交叉检验(five-fold crossvalidation)预测准确率分别达到了72.1%,在相同数据集下,比Gromiha et al.等工作的准确率提高了4%。本文的研究证明我们的模型可以有效地对膜转运蛋白的三种主要功能进行分类。
㈢提出了两个模型对蛋白质折叠问题进行预测。第一个是基于局部结构信息熵的模型:从AAindex数据库中的531种残基物理化学性质,序列长度信息和局部结构信息熵中筛选特征,分别针对三种折叠机制two-state,multi-state和mixed-state的蛋白质预测其折叠速率,用Jackknife验证模型真实值与预测值之间的相关系数达到0.790,0.829和0.778。和其他模型相比,我们的模型具有输入参数少,计算简单,平均绝对误差小的优点。另一个是基于序列信息出发,考虑残基的二级结构,残基柔性和溶剂可及性提出一个模型PFR-AF,PFR-AF也是针对三种不同的折叠机制来分别预测三种蛋白质的折叠速率。PFR-AF模型有较高的相关性(0.71到0.95),并且平均绝对误差较小(0.75到0.9),我们的模型还解释了对于two-state折叠的蛋白增加处在蛋白质表面的丙氨酸(Ala)可以加快折叠速率,而增加异亮氨酸(Ile)的含量,则可能降低折叠的速率。我们观还察到coil的柔性可以加快折叠过程,处在蛋白质表面的strands的含量则会降低速率。通过增加处在multi-state蛋白质表面的柔性会延长折叠过程。multi-state蛋白质二级结构starnds的柔性也会减慢折叠过程。另外还提供了两个例证来验证模型的正确性。
㈣基因组的开放阅读框(ORF)是基因识别与基因组分析的基础。本文给出了基于终止子的集合p0-MORF定义与它的生成算法,证明了由基因组所确定的P0-MORF集合的存在与唯一性。我们还以原核生物S.Coelicolor A3(2)为例讨论了该生物基因组中CDS与p0-MORF序列的相互关系。