论文部分内容阅读
蛋白质翻译后修饰作为发生于RNA翻译后的一种共价加工过程,是一种调控蛋白质功能的重要机制,几乎参与了生物细胞内所有的正常生命活动。因此深入研究翻译后修饰对于理解蛋白质组学的作用机制,以及人类某些疾病的发病机制具有重要作用。然而传统的实验鉴定方法难以满足现在对于海量数据的分析需求,近年来,随着生物信息学这一交叉学科的诞生,利用机器学习的计算预测算法对蛋白质翻译后修饰的预测成为了当前重要的研究内容之一。因此,本文基于机器学习算法对磷酸化修饰进行了研究与分析,具体内容如下:(1)基于支持向量机的人类蛋白质磷酸化修饰位点预测研究。提出一种磷酸化修饰序列片段特征提取方法,即信息熵与密度熵,用于提取磷酸化修饰位点两侧蛋白质序列片段的保守信息;基于不同物种间的特异性,选取人类蛋白质磷酸化序列作为数据集构建预测模型HPSP(Human Phosphorylation Site Predictor)。结合信息熵与密度熵、氨基酸组成、氨基酸物理化学属性以及KNN距离四类特征对序列片段进行编码,引入F值检验方法对物理化学属性特征筛选。融合提取与筛选后的特征,选用支持向量机算法搭建预测模型,十倍交叉验证结果显示信息熵与密度熵特征与其他特征相比能够有效提高磷酸化修饰预测性能;利用独立测试集与已有模型相比,HPSP预测模型具有良好的预测性能。(2)基于集成学习的酵母菌磷酸化修饰位点预测研究。针对酵母菌磷酸化修饰提出一种基于随机森林的集成学习策略YPSP(Yeast Phosphorylation Site Predictor),并根据K-spaced特征提出结合位置信息的pos-K-spaced特征。从数据集中提取pos-K-spaced特征、二进制编码特征、物理化学属性特征、KNN距离特征以及位置特定评分矩阵特征共5种特征,用每一种单一特征训练一个随机森林模型,随机森林模型的预测结果显示pos-K-spaced特征能够有效区分磷酸化修饰位点与非磷酸化修饰位点。然后利用逻辑回归算法对5个随机森林的输出结果进行集成得到最终的预测模型。实验结果表明,本文提出的集成模型YPSP相比于利用单一机器学习算法搭建的模型更能准确的预测磷酸化修饰位点。