论文部分内容阅读
由蛋白质序列预测其功能位点是蛋白质功能注释的重要步骤,它也为相关生物学实验提供重要依据。本文通过对蛋白质结构域分类数据库SCOP的再划分,得到了13590个“子结构域”,并利用隐马尔科夫链模型软件HMMER为这些子结构域构建了相应的模版序列。我们利用蛋白质结构数据库PDB文件中SITE注释行信息和动力学微扰动算法DPA的预测结果,将135621个子结构域的功能位点映射到对应的模版序列,从而得到了一个附带功能位点注释的模版库(fDPD)。HMMER将给定的未知序列定位到fDPD中特定的模版上,通过模版上的功能位点反应到询问序列上从而定位出预测位点。为了检验其预测效用,我们应用本方法检验了几个不同类型的数据库,我们的预测结果表明本方法有较高的精准度和覆盖度。我们的分析表明,fDPD作为一个开放的模版库,它还可以通过吸收其他的蛋白质功能注释信息(如文献检索)建立起更完备、更专门的模版库,从而提高预测精度和效用。我们的计算结果表明,结构上相似的蛋白质其功能位点倾向于出现在相似的蛋白质表面的位置上。