论文部分内容阅读
在后基因组时代,对于蛋白质功能位点和相互作用位点的预测是一个重要的研究课题。这些位点的识别对于认识蛋白质功能机制有着重大的意义。
我们设计并实现了基于分层随机语言模型的算法,从序列数据出发对激酶这种特殊的蛋白质的功能位点进行预测。同时,基于已知的蛋白质相互作用数据,我们使用AdaBoost方法来发现可能的蛋白质相互作用位点。
在对于激酶功能位点预测的问题中,我们将预测结果与PROSITE数据库中的特征串和PDB数据库中的配体结合区域进行了比较。在这两组比较中,基于分层随机语言模型的算法的平均敏感性以及平均特异性分别为83.5%/23.0%和66.1%/79.9%。在针对激酶功能分类进行的10折交叉验证中,分层随机语言模型达到了更高的敏感性(94.7%)和特异性(94.0%),而与之相比较的MEME敏感性为94.5%,特异性为85.8%。与Pfam中蛋白质结构域数据的比较也显示我们的结果更能够反映激酶家族的特征。分层随机语言模型能够自动对激酶子类进行识别,识别出的子类与序列系统发育树能够很好的吻合,这说明我们的方法可以很好的处理具有相同催化功能但是结构不同的序列数据。
对预测得到的蛋白质相互作用位点,我们则使用了PDB数据库中的多链蛋白质结构和iPfam中的蛋白结构域相互作用数据进行了验证,验证结果显示相对于传统的统计方法,我们的预测位点具有更高的显著性。在蛋白质相互作用预测的交叉验证中,相对于朴素的贝叶斯模型(32.08%/87.38%)和一种改进的贝叶斯模型(54.85%/87.14%),我们的方法在敏感性和特异性上都获得了更好的结果(66.42%/87.38%)。