论文部分内容阅读
目前,受计算时间的限制,传统的量子化学从头算方法还无法直接用于计算生物大分子的性质,因此,模拟生物大分子的性质主要还是依靠经验性的分子力场。然而,力场的缺陷是众所周知的,也是大家一直以来都在讨论的一个问题。为了使得严格而精确的量子力学(QM)方法能够应用到生物大分子体系,在过去的二十多年里人们做出了很多努力,发展了各种线性标度的,以及分块的量子化学方法。在各种方法中,分块方法已经越来越受到大家的欢迎,因为它的计算量随着分子体系的增大近似是线性增加的。分子碎片共轭帽方法(MFCC)是我们课题组发展的一种分块方法,它最初是用来计算蛋白和配体的相互作用,进而被用来在不同量化水平下计算蛋白质体系的总能量。在此基础上,我们又发展了一种更加高效的扩展化的分子碎片共轭帽方法(GMFCC/MM),在此方法中,彼此距离较近而序列上又非相邻残基的两体相互作用是用QM方法来计算,距离较远的序列上非相邻残基的相互作用是用分子力场来计算描述。本论文的主要工作是:我们进一步发展了一种静电嵌入的扩展化的分子碎片共轭帽方法(EE-GMFCC),精确计算蛋白的各类性质,包括蛋白的能量,蛋白-配体的相互作用能等等;进而我们推导求解出EE-GMFCC能量的一阶和二阶导数,因此我们就可以实现蛋白质结构优化和振动光谱(红外和拉曼光谱)的计算,同时我们还实现了蛋白质在显式溶剂环境下的从头算分子动力学模拟(AIMD)。在EE-GMFCC方法中,序列上相临的三个残基作为一个分子碎片的能量,以及空间距离较近而序列上非相邻残基的两体相互作用都是用QM计算得到,而长程的相互作用都是用经典的静电库伦相互作用来描述。跟之前的分块方法相比,EE-GMFCC在做QM计算的时候,每一个分块的QM计算都是置于蛋白内部环境所产生的电场中,用背景电荷来近似表示该分块所处的生物环境。大量的研究测试显示了EE-GMFCC方法的有效性和可靠性,对于18个真正的蛋白结构(最大的蛋白有1142个原子构成),EE-GMFCC在HF/6-31G*水平计算得到的蛋白的总能量和全量子计算得到的结果非常接近,平均误差只有2.39 kcal/mol。EE-GMFCC还用于密度泛函理论(DFT)和二阶多体微扰理论(MP2)的计算,误差也是只有几个kcal/mol。EE-GMFCC还可以和类导体极化连续介质模型(CPCM)结合,用于计算蛋白和配体的结合自由能,经单点计算测试,该方法在HF/6-31G*-D水平计算的avidin蛋白和14个biotin及类似物的结合能和相应实验值的相关性(R)是0.75,而力场计算结果的相关性只有0.73;在B3LYP/6-31G*-D水平下的单点计算,其相关性是0.85,而当增加取样,对多个结构取平均值的时候,该水平下的计算值和实验值的相关性可以高达0.88。EE-GMFCC方法是线性标度的,易于并行,可以有效的用于蛋白结构的优化和较高理论水平的从头算动力学模拟。和全量子的计算相比,EE-GMFCC可以优化得到正确的蛋白质分子结构,其计算得到的振动光谱也和全量子的结果非常吻合。蛋白amide Ⅰ区间的振动模式被广泛用于研究蛋白的结构,我们用EE-GMFCC计算了具有不同二级结构的蛋白的amide Ⅰ振动模式,结果和实验值也是非常吻合。最后,我们发展了蛋白在显式水模型中基于EE-GMFCC方法的从头算动力学模拟,和传统力场的分子动力学模拟结果相比,AIMD下的蛋白结构更加稳定,显示了量子结果的可靠性;更重要的是,AIMD可以包含动力学过程中蛋白内部环境的电荷极化和电荷转移等重要的量子效应,这在传统力场当中是没有的。