论文部分内容阅读
蛋白质–蛋白质相互作用在许多生命活动中发挥着重要作用,如基因的复制、转录翻译和调控、细胞信号转导、免疫识别、细胞运输、反应催化等。结构决定功能,确定由蛋白质–蛋白质互作而形成的复合物的三维结构对于深入理解蛋白质–蛋白质相互作用背后的分子机制,促进药物的设计和研发,从而治疗相关疾病,改善人类健康有着极其重要的意义。由于实验解析蛋白质–蛋白质复合物结构存在周期长、成本高等问题,蛋白质–蛋白质对接成为了预测蛋白质–蛋白质复合物三维结构的有效计算手段。基于快速傅里叶变换(Fast Fourier Transform,FFT)的自由对接算法由于能较为高效、准确地进行全局匹配搜索,因而受到了极大的关注。在基于FFT的对接算法中,来源于“锁钥模型”的形状互补分数是最基本的打分函数,而常用的GSC(Grid-based Shape Complementary)和PSC(Pairwise Shape Complementary)分数都只考虑了近邻原子对格点分数的影响,未考虑远程原子的影响。因此,我们提出了描述蛋白质间形状互补的长程分数LSC(Long range Shape Complementary),它通过高斯函数平滑地计算了邻近的多层格点对当前格点的影响。并以此为基础开发了基于FFT的对接算法,测试结果表明,基于LSC的FFT对接算法优于其它基于GSC和PSC的FFT对接算法,随后我们将统计势ITScore PP整合到此对接算法中开发了HDOCK-lite,显著提升了对接效果。另外,小角X散射(Small Angle X-ray Scattering,SAXS)实验能够以高通量的方式对蛋白质–蛋白质复合物进行检测,提供形状轮廓等方面的信息。为了利用SAXS数据进行辅助建模,我们通过对输入的实验数据进行质量检查,并综合基于知识的打分函数ITScore PP和基于SAXS实验数据的SAXS能量分数对预测的结合模式进行打分和排序,显著提升了复合物结构预测的成功率。此外,随着结构生物学实验方法和技术手段的不断进步,蛋白质结构数据库(Protein Data Bank,PDB)中可用的蛋白质–蛋白质相互作用的界面信息也越来越多,基于模板的对接算法能够从中搜索同源复合物模板并以此为基础预测复合物结构,在模板同源性较高时,预测结果准确性较高,然而当没有模板或者模板信息不可靠时,就需要自由对接算法进行预测。因此我们提出了复合对接策略,有机地将自由对接方法HDOCK-lite和基于模板的对接方法相结合,在仅有弱同源模板可用的情况下,仍然能够提升蛋白质–蛋白质复合物结构预测的效果。最后,我们将上述方法整合在一起开发了HDOCK网页服务器,网址为http://hdock.phys.hust.edu.cn/。蛋白质同源低聚物是一类非常重要的蛋白质–蛋白质复合物,它是由多个相同的亚基结构组装而成,在能量和进化双重驱动下,大部分的同源蛋白质复合物都具有某种对称性。使用通用的蛋白质–蛋白质对接算法来预测其组装结构存在两个主要问题,一是在没有对称性约束的情况下进行采样,采样的效率不高,会产生许多无效的匹配模式;二是无法构建严格对称的低聚物组装结构。因此,我们在HDOCK基础上开发了预测蛋白质同源低聚物结构的对接算法HSYMDOCK,它支持对Cn和Dn对称的低聚物结构进行预测,并在包含多种对称蛋白的三个测试集上进行了测试,表现出比其它类似对接算法和服务器更好的性能。之后以此为基础开发了HSYMDOCK网页服务器,网址为http://huanglab.phys.hust.edu.cn/hsymdock/。为了检测开发的对接算法和对接策略在实际应用中的表现,我们参加了“国际蛋白质相互作用预测比赛”(Critical Assessments of PRediction of Interactions,CAPRI),并取得了优异的成绩,尤其是在第46轮CAPRI比赛中,我们在服务器预测组中排名第一。随后我们使用HDOCK对与结直肠癌化疗耐药性相关的JAK2和BECN1的复合物结构进行了预测,并对相互作用的界面进行了分析。最后,受深度学习在蛋白质结构预测领域取得的突破性进展启发,为了充分利用已有的序列数据和蛋白质结构数据,我们开发了Deep Homo,一个基于Res Net的深度学习模型,其通过整合单体结构特征和多序列比对特征等来预测蛋白质同源聚低聚物的界面残基接触,在三个测试集上的测试结果表明,其预测准确性优于现有的方法。将预测的残基接触整合到对接算法HSYMDOCK中,显著提高了对接算法的预测成功率。最后开发了网页服务器,网址为http://huanglab.phys.hust.edu.cn/Deep Homo/。