论文部分内容阅读
合适的残基与残基接触被认为在维持蛋白质的天然构象和指导蛋白质折叠方面发挥着关键作用。实际上,蛋白质残基接触预测能够为蛋白质结构预测提供非常有价值的信息,因为残基接触信息,特别是远程残基接触信息,能够被用来直接指导蛋白质三维结构的重构、通过改善能量函数的最小能量面以有效缩小构象搜索空间,和通过构建打分函数来进行模型评价和选择。此外,它的应用还被扩展到合理的药物设计。尽管近年来对蛋白质残基接触预测有了较为深入的研究,并且CASP国际竞赛也极大地推动了这一领域的发展,但预测准确性仍然较低,因此也得到了越来越多的关注。目前,蛋白质残基接触的预测主要分为基于模板的方法和基于序列的方法。前者基于同源模板来进行预测,因而限制了它的使用。相反,后者仅仅基于氨基酸序列来进行预测,因而更具有研究价值,也获得了更多的研究热情。基于序列的方法大体上主要包括基于机器学习的方法和基于共进化信息的方法,前者主要通过检索结构数据库中的统计信息来构建各种各样的机器学习模型,而后者主要使用蛋白质非冗余的同源序列的多重序列比对得到的共进化信息。已有研究表明,以上两种方法的结合能够有效提高残基接触预测的准确性。本研究中,我们提出了DeepConPred方法,包含两个基于深度学习的模型(DeepCCon和DeepRCon)和一个优化过程,通过有效结合结构数据库中的统计信息和序列数据库中的共进化信息来提高远程残基接触预测。DeepConPred使用一个层次架构,通过在第一阶段DeepCCon的预测结果来进一步促进DeepRCon的远程残基接触预测。对这两种方法,我们设计了一些新颖的特征,通过结合已有的有效特征对蛋白质结构性质进行更全面的描述。进而我们使用特征选择技术选取最具辨别能力的特征子集,使用深度学习技术构建模型,有效提高对蛋白质二级结构片段接触和远程残基接触的预测准确性。特别地,DeepCCon和DeepRCon通过使用有限的非冗余同源序列得到的共进化信息来进行模型训练,以确保对小家族蛋白具有鲁棒性。因此,随后的优化步骤被用来综合所有的非冗余同源序列得到的全面的共进化信息来提高大家族蛋白的预测准确性。广泛的实验表明DeepConPred能有效提高蛋白质远程残基接触预测的准确性,能被认为是一种极具竞争力的方法。