论文部分内容阅读
蛋白质折叠通常被定义为一个蛋白质获得其功能性结构和构象的过程,而蛋白质折叠速率是一个衡量蛋白质折叠快慢的重要参数。在过去的数十年间,许多的模型被提出用来预测蛋白质折叠速率。总的来说,预测模型可以分为三类:基于蛋白质拓扑结构的模型、基于蛋白质链长的模型、基于氨基酸组分及其物化性质的模型。 本文提出一个预测蛋白质折叠速率的新参数——平均接触二面角数,它间接地反映三个方面的信息:拓扑结构、链长和氨基酸组分。对于包含103个蛋白质的训练集,经过Jackknife检验,我们模型的折叠速率的理论预测值与实验值相关系数达到0.762。为了检验模型的鲁棒性,本文构建一个包含32个蛋白质且独立于训练集的检验集,通过与其他5种基于网络服务器的蛋白质折叠速率预测方法,结果显示我们的模型的预测精度和鲁棒性要好于大多数方法。 2010年,Luo和Zhang提出用动力学接触序来预测蛋白质折叠速率,其定义基于一条多肽链的接触残基间转动惯量和扭转势能。然而,动力学接触序模型的转动惯量计算是建立在将整个氨基酸残基质点化的基础上,这就导致未能细致地反映出不同氨基酸侧链的差异性。事实上,氨基酸侧链决定一个具体蛋白质的全部特异性,包括其生物性功能和特定的三维结构。特别地,当蛋白质大小相当时,侧链的特异性将直接地反映其折叠速率的差异性。为了更加充分反映侧链的差异性,重新将接触定义为两个不同残基非氢原子之间的接触,同时,对于20种氨基酸的转动轴以及对应转动原子做出新的定义。以此为基础,本文提出两个基于原子团的转动惯量计算模型:顺序转动惯量和接触转动惯量。基于包含103个蛋白质的训练集,发现对于总转动惯量而言,两者与实验折叠速率的相关系数分别为-0.636和-0.740。最终以接触转动惯量构建蛋白质折叠速率的预测模型,经过Jackknife检验,基于103个蛋白质的计算结果表明,蛋白质总接触转动惯量预测折叠速率与实验折叠速率的相关系数为0.768。 通过数据分析,得到三个主要结论:对于二态蛋白质,拓扑结构是影响蛋白质折叠的主要因素;对于多态蛋白质,链长是蛋白质折叠速率的主要决定因素;当蛋白质的链长相近时,侧链的拓扑结构是影响二态蛋白质折叠的最主要因素。