论文部分内容阅读
酶是一类具有催化功能的蛋白质,它参与催化细胞生长、代谢等细胞新陈代谢中几乎所有的过程。因此,酶功能的研究是生命活动研究的重要课题。 酶蛋白质的功能与其结构密切相关,想了解酶蛋白质的功能,需要先测定其结构。由于实验测定酶蛋白质结构耗时且具有技术限制,理论预测酶蛋白质成为了研究的一大热点,大量已知的酶蛋白质氨基酸序列为其结构的预测提供了条件。但从酶蛋白质的序列直接预测其三级结构非常困难。超二级结构是三级结构的重要组成部分,是一级结构和三级结构之间的桥梁。β-发夹模体和βαβ模体是两类重要的超二级结构,它们包含大量的折叠信息和配体结合信息,因此,正确预测酶蛋白质中β-发夹模体和βαβ模体是一项有意义的工作。 本文对酶蛋白质中常见的特殊模体β-发夹和βαβ进行了预测。主要内容如下: 第一、酶蛋白质中β-发夹模体的预测 (1)依据ArchDB_EC数据库构建了非冗余的β-发夹数据集,包含序列相似性小于25%、分辨率高于3的酶蛋白质链1080条。通过统计分析,选取loop长为2-12个氨基酸的β-发夹模体作为研究对象,其中β-发夹模体2818个和非β-发夹模体1098个。 (2)采用矩阵打分算法对2818个β-发夹和1098个非β-发夹预测,预测效果不理想。为了提高预测精度,提出了基于矩阵打分值和平均化学位移值的支持向量机算法。以氨基酸位点亲疏水组分、位点亲疏水紧邻关联组分的打分值和平均化学位移值作为组合向量,输入支持向量机算法的预测总精度为81.8%,相关系数为0.636,预测效果好于矩阵打分算法的预测结果。 第二、酶蛋白质中βαβ模体的预测 (1)依据DSSP、PDB和SCOP数据库,构建了非冗余的βαβ模体数据集。得到了序列相似性小于25%,分辨率高于3,至少存在一个βαβ模体的酶蛋白质1141个,包含βαβ模体3081个,非βαβ模体2356个。 (2)通过统计分析,确定以loop-α-loop长10-26个氨基酸的βαβ模体为研究对象,包括βαβ模体2659个,非βαβ模体2002个。选取32个氨基酸为固定序列模式长,并对截取的固定序列模式做位点保守性分析。 (3)采用随机森林算法对酶蛋白质中βαβ模体进行预测,当以离散增量值、氨基酸残基间的相互作用、预测的二级结构信息和矩阵打分值作为组合向量时,5-fold检验预测总精度是84.7%,相关系数达到了0.686。将相同特征参数输入到支持向量机算法中,比较后发现随机森林算法得到的预测结果较好。