论文部分内容阅读
蛋白质—蛋白质相互作用影响了细胞中的很多过程.这些过程包括蛋白质的翻译,修饰,细胞循环的控制,信号的传导等。理解蛋白质.蛋白质相互作用在当今生物学中是一个关键性的课题,同时也是一个长期的目标.然而在今天,我们在其中很多问题上仍然不能获得满意的解决方案.这些问题包括预测蛋白质—蛋白质亲合能,蛋白质-蛋白质界面处的热点(hot spots)位置,在蛋白质复合物的对接(docking)中快速准确的打分等。
在研究蛋白质—蛋白质相互作用的方法中,基于结构知识的方法是非常具有吸引力的。这种方法已经广泛地应用于蛋白质结构预测,蛋白质折叠,热稳定性预测以及蛋白质—蛋白质对接和绑定(docking and binding)的研究中,并取得了一定的成功.这种方法的主要思想是对蛋白质结构数据库(PDB)中的晶体结构数据进行统计分析,进而研究原子(残基)对相互作用.近年来,这类方法中最吸引人和广泛使用的是距离相关(distance—dependen)的方法,通常被称为平均势(PMF)方法.它是流体统计力学中半径分布函数理论和平均势方法在蛋白质领域中新的发展和应用.
尽管平均势方法已经在蛋白质领域中取得了一定的成功,但是这类方法的理论基础和物理解释仍然不尽清楚,尚存在很多争论.这主要是因为此方法应用于蛋白质系统时,大多只是直接使用来源于流体统计力学中的方法.但是蛋白质系统是一种非常复杂的软物质系统,有很多简单流体所没有的特性和环境,如蛋白质链的连接性.所以将简单流体中平均势方法应用到蛋白质系统时,应该把这种软物质系统特有的复杂性因素加以考虑.
以往工作在把平均势方法直接应用于蛋白质系统时,经常会加入一些可以自由调节的参数。通过调节这些自由参数,人们能够得到较好的预测结果.但与此同时,很多来自统计的有价值信息可能被丢失.并且这些自由参数的物理意义很不明确.为了克服上述问题,我们在避免使用自由参数的前提下,在平均势方法中加入蛋白质系统特有的复杂性因素,然后判断方法是否得到改进.
为了评价一种方法的优劣,人们通常需要使用一些标准.在以往的工作中,人们主要通过比较计算结果同实验结果的线性相关系数来评价方法的有效性.但是,这样做存在一些问题.一是前面提到的人们可以引进很多自由参数,通过调节这些自由参数获得较好的结果.二是已经有研究指出,通过从测试数据集中挑选出部分数据的途径,可以获得很高的线性相关系数。这也相当于隐含地在方法中加入了自由参数。所以综上所述,把线性相关系数作为唯一评价方法优劣的标准是不能令人信服的。
在本文的工作中,一方面所有的改进及测试都是在不含自由参数的前提下进行,另一方面使用了更多的标准判断方法的优劣.这些标准有:蛋白质—蛋白质复合物的亲合能预测,丙氨酸突变对亲和能改变的预测,势函数的合理性,预测亲合能的合理性等。
我们开始于一个目前广泛使用的模型,然后逐步考虑了三种蛋白质系统的复杂环境因素到方法中对其改进.最后对传统模型及逐步改进的三种模型用上面提到的判定标准进行比较.从最终的比较中可以发现,加入的这些因素对方法有了明显地改进.并且在最后的方法中,达到了最好的结果.并且这些结果显示我们的方法在很多方面比前人的方法更加有效.
在对势函数合理性的讨论中,我们可以发现四种方法得到的势函数被逐步的改善了.在最后一种方法中,势函数具有了完全合理的物理性质,并且表现了更多的相互作用细节.
在蛋白质复合物的亲合能预测中,我们采用了七个测试集,测试集1-5分别为已出版的5篇文章中的数据.测试集6包含1-5的所有数据.测试集7为集6中的所有蛋白酶.从四种方法预测结果的线性相关系数和方差中我们可以看出方法是逐步被改进的。并且我们的最后一种方法所预测的结果同已出版的文章相比较也是最好的。
在对人类生长因子及其受体(hGH-hGHbp)复合物的单丙氨酸突变引起亲和能改变的预测中,我们最后的方法也得到了和实验非常相符的结果.借由这种方法我们可以准确地预测蛋白质.蛋白质界面的热点(hot spots).这在实际应用中具有很重要的意义.
本工作的主要贡献如下:
目前广泛使用的平均势方法对蛋白质系统的特性考虑很少,大多只是把流体统计力学中的平均势方法直接套用在蛋白质系统中.我们的方法考虑了蛋白质系统的复杂环境因素,对方法进行了一系列改进.
得益于我们对平均势方法的改进,计算得到的统计势函数变得更加合理并且具有更多细节.在预测蛋白质—蛋白质亲和能及丙氨酸突变引起亲和能改变方面,我们得到了令人比较满意的结果.这些预测在蛋白质领域的理论研究和实际应用中都具有重要价值.
此外,虽然改进的方法在本工作中是用于研究蛋白质—蛋白质相互作用的,但是由于我们是在方法上取得了重要的改进,所以我们期望本工作也将会极大地推进平均势方法在蛋白质科学其它领域中的应用和发展.