论文部分内容阅读
蛋白质是一个生物大分子,是生物功能的重要载体。蛋白质可以自发地从不稳定的变性态快速精确地折叠到它独特的稳定的天然态,其折叠机制尚不清楚。研究蛋白质是如何快速地折叠到其天然构象成为当前分子生物学的主要内容之一。实现蛋白质折叠速率的精确预测,进而给出影响蛋白质折叠的主要因素,是探究蛋白质折叠机制的主要方法之一。为了探索蛋白质折叠速率的决定因素,科学界开展了大量研究工作并提出各种预测方法及模型。在假定折叠环境大致相同的条件下,目前的研究表明,影响蛋白质折叠速率的因素主要是:蛋白质大小、结构拓扑和氨基酸组成。其中,蛋白质大小和结构拓扑是主要因素,而就当前所积累的折叠速率实验数据量,基于氨基酸组分还不足以给出蛋白质折叠速率的精确预测模型。蛋白质的大小可以通过蛋白质的链长(即序列的氨基酸残基数量)来表示,结构拓扑主要是通过接触序来表示。接触序定义为平均每对接触残基间的序列间隔。一个蛋白质的接触序大,表明非局域接触多,蛋白质的结构组织相对松散;而一个蛋白质的接触序小,则表明局域接触更多,蛋白质的结构组织相对更为紧致。对蛋白质接触序的研究,是预测蛋白质折叠速率的重要方面,也是预测蛋白质3D结构的重要环节。因此,统计分析蛋白质接触序对于研究蛋白质的折叠问题具有显著的意义。 在752个蛋白质的数据集上的统计结果表明,蛋白质的绝对接触序与蛋白质的大小和形状相关。绝对接触序与蛋白质的链长的相关系数达到0.76,与折合回转半径的相关系数为-0.71。基于这些分析,我们以链长与回转半径的比值作为蛋白质绝对接触序相关的一个新参数——链长回转半径比。统计结果显示,链长回转半径比与绝对接触序的相关系数为0.83,说明这个参数是蛋白质绝对接触序的一个决定因素。此外,蛋白质累积主链扭角与蛋白质绝对接触序之间也存在很好的相关性。 接下来,我们统计分析了影响蛋白质折叠速率的相关因素。通过从氨基酸序列出发预测的主链扭角,能够计算得到累积主链扭角的值,在此基础上可以建立基于氨基酸序列的蛋白质折叠速率预测模型,在100个蛋白质折叠速率实验值的数据集上,预测的累积主链扭角与折叠速率的相关系数达到79%,结果优于现有的链长模型、有效链长模型、接触序模型以及长程接触数等模型。此外,我们也分别统计了链长回转半径比和累积主链扭角回转半径比与折叠速率的相关性,结果表明,相比于链长,链长回转半径比与蛋白质折叠速率的相关性更高,尤其是显著改善了与二态蛋白质折叠速率的相关性。而累积主链扭角回转半径比则主要改善了与多态蛋白质折叠速率的相关性。 最后,我们将蛋白质的大小(用累积主链扭角表示)、形状和结构拓扑混合在一起,采用支持向量回归给出一个蛋白质折叠速率的预测模型,Jackknife检验预测值与实验值的相关系数为0.797,平均绝对误差为1.89,实现了在当前数据集上的最佳预测结果。这一结果表明,在不考虑环境因素的前提下,蛋白质折叠速率是多因素决定的,其中蛋白质的大小、形状和拓扑结构三方面的因素可能是纠缠在一起共同起主要作用的。