论文部分内容阅读
蛋白质是由20种标准氨基酸组成的线性序列,序列信息决定了它的结构与功能。其中蛋白质折叠分类预测是蛋白质结构预测中的一个至关重要的步骤。自然界中有一千多种蛋白质折叠,对蛋白质折叠进行研究,开发有效预测算法,不仅有助于了解蛋白质折叠的内在规律,还对蛋白质结构研究具有重要的生物学意义。 现有两种有效的方法对蛋白质折叠进行分类。一是基于模板比对的折叠识别。当序列相似性较高时,模板比对方法能够得到很好的预测效果。但随着相似性的降低,模板比对方法的可信度也大幅度下降。另一个是使用机器学习算法的从头预测。它是从氨基酸序列出发,提取蛋白质的特征向量,然后预测折叠类型。对这两种方法的结合是从未被探索过的,本文对此进行了探索,取得了较好的结果。 本研究开发了两种算法,HH-fold和SVM-fold进行蛋白质折叠分类预测。HH-fold利用HHsearch算法进行模板比对,根据比对结果预测折叠类型。SVM-fold是基于支持向量机的从头预测算法,从三个互补的序列谱中提取特征作为SVM的输入。这两种算法结合,产生了TA-fold方法。文中在六个基准数据集上对提出方法和其它从头开始方法与基于模板比对的方法进行了全面的比较与评估。TA-fold方法在 DD数据集上得到了79.9%的正确率。这比其他的从头开始的方法提高5.4-11.7%。当更新这个数据集包含更多的蛋白质折叠后,预测精度提高到97.1%。此外,TA-fold方法在包含6451个蛋白质序列的数据集F184上的预测精度大于90%。在LE数据集上进行的实验表明TA-fold在家族,超家族和折叠的水平上始终优于其它基于模板方法。TA-fold的成功归因于基于模板比对方法和包含丰富的进化信息的从头分类方法的组合。