论文部分内容阅读
激酶功能位点的预测在生物学上有着非常重要的意义。本文提出了一种基于分层随机语言模型的识别方法,通过对一维残基序列的分析来实现激酶功能位点的预测和分类。首先我们统计一维残基序列中n-tuple的分布情况,构造可能表示功能位点的残基关键词(keywords)。在此基础上,根据不同功能的激酶家族,我们利用各家族的关键词建立相应的随机语法(sentencesandgrammars),以此实现不同功能激酶家族的分类。与国际上流行的motif识别方法不同,随机语法模型基于生物进化的规律,不仅允许motif中残基的插入和删除,还考虑到motif中残基间远距离位置的相关性,因此我们的预测结果不仅具有更清晰的生物学意义,而且更方便生物学家利用我们的结果,特别是验证我们所预测的可能的功能位点。
相对于PFAM以domains为基础识别蛋白质的方法,我们的语法模型(sentencesandgrammars)一般只有30-40个残基,因而能更加有效的识别可能存在的磷酸化位点。在65个有PDB结果的激酶家族中,78.4﹪的关键词可以在实验结果中得到印证;而在45个有PROSITE结果的家族中,75.6﹪的关键词可以与PROSITE中已有的patterns重叠。
利用随机语法,我们能有效的对94个家族中的66个进行功能分类,使得每个家族识别的显著性和特异性都高于80﹪,优于PROSITE的识别结果。在另外的20多个家族中,利用我们的模型可以发现其中可能存在子类,其中部分分类结果可以在PDB和进化树分析得到验证。这对于在同功能激酶家族中寻找不同源的子类具有很好的指导意义。