论文部分内容阅读
蛋白质-蛋白质相互作用遵循什么样的物理规律长期以来吸引着生物物理学家们的兴趣。随着结构生物学的发展,越来越多的蛋白质复合物结构被解析获得,很多蛋白质之间相互作用的规律被总结出来。蛋白质-蛋白质对接方法逐渐成为验证这些规律的重要平台。与此同时,随着后基因组时代的来临和蛋白质组学研究的发展,高通量实验研究获得了大量关于蛋白质相互作用的实验信息。而蛋白质-蛋白质对接方法又成为从这些实验信息中快速得到结构信息最有前景的方法之一。
本文的研究围绕着蛋白质-蛋白质对接方法展开,主要集中在两个方面。
第一,笔者设计了一种大格点间距刚性对接方法INTELEF。INTELEF是SOFTDOCK对接软件包中的刚性对接程序,它的主要特点是:1.使用大格点间距进行对接,可以快速地得到对接结果。2.设计了全新的分子表面表示方法-Voronoi分子表面,并引入了表面厚度的概念。通过这种方法可以生成柔软的分子表面,使得对接方法能够得到更多的近似天然构象。3.设计了多种适合大格点间距对接的几何互补打分函数和静电相互作用打分函数。它们都能有效地将近似天然构象从对接结果中挑选出来。4.使用了团簇化方法将结构相似的构象集中在一起,增强了近似天然构象在对接结果中的信号强度。
笔者使用了标准测试集对INTELEF进行了一系列的测试。约80%的复合物可以在排位靠前的对接结果中找到近似天然构象。通过这些测试我们还给出了刚性对接中五方面重要问题的答案。第一,通过截短一些表面残基的侧链解决了如何减少对接结果中原子冲撞的问题;第二,通过测试得到了合适的表面厚度并回答了对接中应该如何权衡分子表面柔软度和精确度的问题;第三,通过取一法测试回答了应该如何评价打分函数在对接中作用的问题;第四,通过比较团簇化前后的对接结果评价了团簇化方法对对接结果的影响;第五,通过交换配基受体次序的测试回答了对接中应该如何选择配基和受体的问题。
第二,设计了一套基于支持向量机(SVM)的结合位点预测方法。结合位点预测不但对于揭示蛋白质相互作用的规律有着重要的意义,还是提高对接方法计算速度和结果精确度的一种有效的解决方案。
我们从PDB数据库中提取出了结合态复合物的数据集。并参考了接触面的结构将数据集中的残基分为表面残基、接触面核心残基和接触面边缘残基三类。每个氨基酸残基使用了残基的理化性质、疏水指数、相对溶剂可及表面积、二级结构、序列保守度和侧链环境等六个方面的性质进行描述。每个残基及其序列近邻和空间近邻残基的信息被输入支持向量机中。通过训练得到能够区分表面残基和接触面核心残基的支持向量机模型。我们使用这个支持向量机模型对标准测试集中复合物的自由态单体进行结合位点预测,结果的准确率接近或超过国际上一些先进的预测方法。