论文部分内容阅读
随着人类基因组测序计划的完成,蛋白质组学已成为后基因组时代的研究前沿和热点领域。其中,蛋白质与配体相互作用以及蛋白质结构-功能关系是蛋白质组学研究的重要内容。蛋白质受体与配体间相互作用与识别机制的研究对于揭示蛋白质分子的生物学功能和有效预测蛋白质复合物结构等具有重要的意义,同时.为探讨重大疾病产生的分子机理、合理的药物开发、新型功能蛋白质设计等提供重要的理论基础。
由于实验测定蛋白质复合物结构存在较大困难,近年来,随着计算机处理能力的不断增强以及理论模拟方法的迅速发展和广泛应用,计算机分子模拟方法已经成为预测蛋白质-蛋白质相互结合形成的复合物结构的重要手段。然而,如何有效解决复合物结构预测中的结合位点预测、复合物构象采集、最终结构挑选等都是当前复合物结构预测的困难问题。本论文针对这些问题,通过参加CAPRI(Critical Assessment of PRedicted Interactions)竞赛和对蛋白质复合物结合位点的特征分析,提出了两种分别针对蛋白质单体和蛋白质受体与配体之间匹配的结合位点预测方法,还发展了一套有效的复合物构象搜索和过滤算法,在这些研究的基础上,开发了集成分子对接方法HoDock(Holistic Dock)。在CAPRI蛋白质复合物结构盲测和已知复合物结构的数据集中,我们的方法和程序取得了满意的结果,验证了方法的有效性。论文内容主要包括以下几个方面:
(1)蛋白质结合位点的特性分析和预测方法
蛋白质结合位点的特征分析和正确预测对提高复合物结构预测方法的效率至关重要。通过对蛋白质结构数据库PDB(Protein Data Bank)中现有蛋白质复合物结构的分析,我们发现蛋白质单体结合位点的主链氢键的溶剂化特性对它参与蛋白质-蛋白质相互作用有重要作用,如果蛋白质单体表面残基参与形成主链氢键,并且接触水分子个数大于4个时,这种残基倾向于参与蛋白质-蛋白质相互作用。进一步,我们利用成簇算法,把具有这些特征的表面残基划分为紧密的残基块,发现块内的残基个数越多,这种残基块越容易出现在蛋白质-蛋白质复合物界面上。
利用蛋白质结合界面残基的这种特性,通过寻找满足上述特征的表面残基块,我们建立了一种有效的结合位点预测方法BHSsite(Backbone Hbond Solvation site)。该方法在蛋白质-蛋白质复合物数据库Benchmark2.0的84个复合物上进行了验证,特别地,对于可通过多个不同结合部位参与复合物形成的蛋白质单体,这种方法很有效。在CAPRI体系T09的复合物结构预测中,预测给出的三个结合部位与复合物晶体结构完全一致。上述研究有助于进一步了解溶剂化效应在蛋白质复合物形成中的重要影响,并为合理的蛋白质结构设计提供基础。
在复合物结构预测中,仅仅知道单体的结合位点还不够,需要进一步探索两个单体之间的界面匹配关系。通过分析蛋白质-蛋白质复合物结构数据库Benchmark3.0中的78个双链和30个多链复合物结构,利用一种新颖的蛋白质结构模块化方法,发现在蛋白质复合物界面处存在一种特殊的残基模块。这种模块拥有两种特性,模块中残基之间的接触密度很大,而且整个模块的溶剂可及表面积也很大。根据这一特征,我们提出了一个新的参数PAMA(Product of the solvent accessible Area Multiplies the contact Area),它等于模块中残基的接触面积Q和溶剂可及表面积A的乘积,并用PAMA来预测受体跟配体的匹配。研究发现PAMA值越大,模块越容易出现在复合物界面上。这种结合位点预测方法被制作成高效的网络服务器(http://bioinformatics.bjut.edu.cn/pama/),免费提供给学术用户使用。
基于PAMA参数的预测方法相对于以往的结合位点预测方法的新颖之处在于,该方法有效地考虑了蛋白质内部残基对蛋白质-蛋白质相互作用以及复合物结构形成的影响。上述研究有助于我们进一步了解蛋白质-蛋白质相互作用的机理以及蛋白质-蛋白质相互识别的特异性和亲和力的结构基础。
(2)复合物构象搜索及过滤方法的改进
蛋白质-蛋白质复合物结构预测方法通常分为两步,即构象采样和打分排序。在构象采样中需要在尽量短的时间里搜索到近天然结构,因此复合物结构预测研究的一个重要问题是建立快速有效的搜索算法。本论文提出了一种新的“过滤加强”采样方法,并将其应用到我们的集成复合物构象预测算法中以提高构象采样的效率。过滤方法是基于对天然蛋白质结构中被多于9个疏水基团所包裹的主链氢键进行统计的结果,这些疏水基团能够使得氢键主链免受水分子的侵扰,所以这样的蛋白质结构就稳定。如果复合物结构预测中采集到的构象界面处的主链氢键暴露在水溶液中,而不能很好的被包裹起来,那么这种结构就不是近天然结构,所以被提早删除掉,以节省结构优化、打分、成簇等的宝贵时间,能够采集到更多近天然结构,提高采样效率。
为了验证我们所提出的过滤方法的有效性,在经过CAPRI盲测后,我们将“过滤加强”的采样方法应用到比较容易的目标体系T12和比较困难的目标体系T20和T21上,发现预测结果都得到了提高,配体的最小均方根偏差减小,同时,近天然结构数量增加。对于T12,改进前的配体均方根偏差是0.94nm,改进后的配体均方根偏差是0.12nm,达到了晶体结构的实验准确程度范围。
(3)集成分子对接方法
在上述研究的基础上,我们开发了一套集成分子对接方法HoDock(HolisticDock)。该方法把结合位点预测结果加入到分子对接程序中,在构象的过滤中,把我们提出的“过滤加强”方法整合到该程序包中。我们的集成分子对接方法主要包括以下四步:1)预测结合位点关键残基,2)通过位置约束对接程序生成备选的复合物结构,3)打分和成簇,4)挑选最终复合物结构。
在HoDock方法中,整合了我们所提出的结合位点预测方法和构象过滤方法,减少构象空间的搜索范围并过滤掉不合理结构;使用基于网络的组合打分函数HPNCscore,对复合物进行打分;结合实验信息和理论预测的位点信息,挑选出最有可能的复合物构象。在最近CAPRI对接比赛中的T39,T40和T41复合物结构预测上HoDock方法取得好的成绩。对于T39,所有的40多个参赛小组提交366个结构中仅有3个正确结构,其中就有1个正确结构是我们所预测的。对于T40,实验结果表明,该体系存在两种不同的结合模式,在我们的方法中这两种结合模式都被正确的预测出来。对于T41,我们也提交了结合方位正确的结构。这些结果验证了HoDock对接方法的有效性。