论文部分内容阅读
蛋白质在生命活动中起着重要作用,了解蛋白质的结构与功能,有助于人类探索生命的运行机制,促进治疗药物的研发。其中,蛋白质与核酸的结合对细胞转录过程具有重要的调控作用,而蛋白质的翻译后修饰广泛存在于细胞翻译过程中。因此,核酸结合蛋白和蛋白质翻译后修饰位点的预测对于了解蛋白质的功能具有重要意义。传统的生物实验方法周期长、成本高,无法满足日益增长的大规模蛋白质数据的预测。基于计算的方法消耗成本更少且简单高效,特别是机器学习的飞速发展,使得基于机器学习的计算模型成为目前一种潜在的替代方法。因此,本文将机器学习的分类方法应用于类泛素化修饰位点和RNA结合蛋白预测问题,提出有效的预测模型。
针对蛋白质类泛素化修饰位点的预测,本文提出了一种基于序列特征的预测模型SUMO-LGBM。该模型以氨基酸的物理化学属性统计特征和氨基酸序列二元语法模式特征描述氨基酸残基,并训练一个轻量型梯度提升机(Light Gradient Boosting Machine, LightGBM)分类模型从蛋白质序列的氨基酸残基中定位类泛素化修饰位点。本文对比了不同的特征的鉴别性,以及不同的分类模型的预测性能。在基准数据集上进行十折交叉验证,本文提出的模型相比于现有方法在性能上取得了明显的提高,马修斯相关系数(MCC)为91.64%,AUC值为99.57%。实验结果证明了本文提出的方法的有效性,可以作为生物实验方法验证蛋白质类泛素化修饰位点的一种辅助手段。
针对RNA结合蛋白的预测,本文提出了一种新的预测模型CnnEtRBP。该模型基于蛋白质序列的三肽频率统计特征,使用卷积神经网络进行特征抽取,并训练一个极端随机树分类器。为缓解训练集上的数据不平衡问题,该模型利用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)对少数类样本进行上采样操作。在三个不同物种的独立测试集上,该模型的测试结果的AUC值均取得了当前领先的水平,高于排名第二的方法2%以上。实验结果表明,本文提出的方法是有效的,可以为实验方法识别RNA结合蛋白提供有效的候选目标。
针对蛋白质类泛素化修饰位点的预测,本文提出了一种基于序列特征的预测模型SUMO-LGBM。该模型以氨基酸的物理化学属性统计特征和氨基酸序列二元语法模式特征描述氨基酸残基,并训练一个轻量型梯度提升机(Light Gradient Boosting Machine, LightGBM)分类模型从蛋白质序列的氨基酸残基中定位类泛素化修饰位点。本文对比了不同的特征的鉴别性,以及不同的分类模型的预测性能。在基准数据集上进行十折交叉验证,本文提出的模型相比于现有方法在性能上取得了明显的提高,马修斯相关系数(MCC)为91.64%,AUC值为99.57%。实验结果证明了本文提出的方法的有效性,可以作为生物实验方法验证蛋白质类泛素化修饰位点的一种辅助手段。
针对RNA结合蛋白的预测,本文提出了一种新的预测模型CnnEtRBP。该模型基于蛋白质序列的三肽频率统计特征,使用卷积神经网络进行特征抽取,并训练一个极端随机树分类器。为缓解训练集上的数据不平衡问题,该模型利用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)对少数类样本进行上采样操作。在三个不同物种的独立测试集上,该模型的测试结果的AUC值均取得了当前领先的水平,高于排名第二的方法2%以上。实验结果表明,本文提出的方法是有效的,可以为实验方法识别RNA结合蛋白提供有效的候选目标。