论文部分内容阅读
蛋白质磷酸化(phosphorylation of protein)指将腺嘌呤核苷三磷酸(ATP)或鸟嘌呤核苷三磷酸(GTP)的磷酸基团转移到底物蛋白质氨基酸残基上的过程,该过程由蛋白质激酶催化。研究表明,蛋白质磷酸化是蛋白质翻译后修饰方式中最常见的也是最重要的一种类型,参与多种信号传导和细胞代谢通路,在调节生命体活动中发挥着不可替代的作用[1]。如今随着高通量质谱技术的快速发展,蛋白质磷酸化位点数据正在迅速累积,大量高质量的磷酸化位点数据的产生为我们能够系统地研究蛋白质磷酸化位点提供了机会,使得可以快速预测蛋白质磷酸化位点成为可能,构建一个具有准确率高并且鲁棒性强的模型预测蛋白磷酸化位点十分重要。首先,我们从UniProt中收集了经实验验证的人类蛋白质磷酸化数据,去除冗余序列后构建正、负样本集。随后提取并分析磷酸化位点和非磷酸位点周围残基的位点保守性、二级结构和可及性以及氨基酸的物化属性的分布情况。结果发现:磷酸化位点上下文各个位点均较为保守;磷酸化位点上下文各个位点具有更高的可及性以及更加倾向于形成环形结构;磷酸化残基周边位点理化性质的分布的波动幅度要明显大于中性残基样本周边位点;磷酸化位点左侧部分和右侧部分的分布并不具有对称性。而上述这些分析结果均表明了这些物化属性对于磷酸化位点识别的重要性。接下来,基于上述分析结果,我们首先构建了基于不同类别特征的窗口择优策略的磷酸化位点预测模型。Jackknife交叉验证的结果显示,该模型具有良好的表型。其次,鉴于对样本序列位置关联性的考虑我们又构建了一个基于位置关联信息的模型,该模型在三组样本数据集中均表现出了更高的预测性能(auROC)。最终我们将基于位置关联信息的模型构建成了一个在线服务预测器(网址为http://lin-group.cn/server/PhospSitePred/),以供相关研究者使用。