论文部分内容阅读
作为重要的翻译后修饰活动之一,可逆的蛋白质磷酸化在多种细胞生命活动中起着调控作用。它被形象地描述为细胞生命活动的分子开关,几乎调节着生命活动的所有过程,如细胞生长、发育、凋亡等。因此,深入研究磷酸化的机理以及对蛋白功能的影响,是现代生物学研究中值得探索的研究方向之一识别蛋白质的磷酸化位点主要有基于实验和预测的方法。常用的实验检测蛋白质磷酸化的方法主要有32P放射性标记、质谱分析法等。采用实验方法鉴定磷酸化位点耗时耗力,且对蛋白质组学的所有序列进行检测的可行性较低,这就推动了生物信息学预测技术在近年来的快速发展。实验技术为生物信息学的发展提供了大量的实验数据基础,从已有的磷酸化数据中挖掘修饰规律并对未知的磷酸化位点进行推测的方法也被相继提出。作为一种有效的信息学手段,蛋白质磷酸化位点预测方法可以对实验方法起着指导作用。本文采用机器学习方法对蛋白质磷酸化位点进行预测,提供了一种具有系统的和层级特异性的磷酸化位点预测研究方法。首先根据Manning提出的方法将蛋白激酶按照同源性等信息划分为包含组、家族、子家族和激酶四个层面的层级结构,然后从Phospho.ELM中提取已有的蛋白质磷酸化序列信息,并将Phospho.ELM数据库中蛋白激酶映射到层级结构上,构成包含多个层面的蛋白激酶数据集。然后,从基因本体论和STRING数据库里分别提取基因本体论和蛋白-蛋白相互作用特征,构建用于磷酸化位点预测研究的特征集。由于基因本体论和蛋白-蛋白相互作用特征维数较高,我们提出了基于mRMR的“两步序列前向选择”方法进行特征选择,对每组蛋白激酶数据分别选出最优的特征子集。并在此基础上,使用随机森林方法构建分类模型进行预测,进而推断未经实验验证的蛋白质序列位点能否被磷酸化。通过10折交叉验证法和独立测试方法对分类模型进行性能评估,发现在各个层面上该分类模型预测性能明显优于其它蛋白质磷酸化位点预测工具,尤其是假阳性率分别控制在1%和5%水平下,该分类模型仍然可以对阳性数据达到较高的预测准确率。最后,为了方便同行使用该磷酸化位点预测方法,我们提供了相关的预测工具包,以期为相关领域研究提供指导和帮助。