论文部分内容阅读
蛋白质翻译后修饰(Protein post-translational modification,PTM)是指在酶和非酶条件下蛋白质的氨基酸侧链上共价结合化学小分子基团,它实现了蛋白质功能的指数级扩增。其中,赖氨酸巴豆酰化(Lysine crotonylation,Kcr)是最初在组蛋白上鉴定出来的一种修饰,它涉及多种生物学过程,与急性肾损伤、潜伏期HIV再激活、抑郁症等疾病相关。因此,从蛋白质序列数据中准确鉴定出巴豆酰化修饰位点,对基础研究和药物开发有着重要意义。识别巴豆酰化修饰位点的实验方法周期长、代价高,因此有必要开发计算预测方法。一些基于组蛋白的,最多包含169个巴豆酰化修饰位点数据的模型已经被开发出来。最近,已通过实验在人类、木瓜、大米和烟草的非组蛋白上各验证了数千个巴豆酰化修饰位点。而对于以前基于组蛋白开发的巴豆酰化修饰分类器是否能识别非组蛋白巴豆酰化修饰位点尚不清楚。所以,急需设计一种跨物种的可识别组蛋白和非组蛋白的蛋白质巴豆酰化修饰位点预测模型。针对目前蛋白质巴豆酰化修饰位点预测中存在的几个问题,进行的主要研究工作如下:(1)首次构建了非组蛋白巴豆酰化标准数据集。通过检索和收集生物实验数据,通过四步数据清洗过程构建了标准数据集。(2)巴豆酰化修饰的特征提取与特征选择。通过组合不同的特征和算法构造了12个不同的分类器来识别非组蛋白巴豆酰化位点。实验结果表明,增强组氨基酸组成(Enhanced Grouped Amino Acid Composition,EGAAC)相对于已发表文献中表述的最佳特征提取算法K-间隔氨基酸对(Composition of k-spaced Amino Acid Pairs,CKSAAP)和其他经典的氨基酸序列特征提取算法,更有效的提升了巴豆酰化修饰位点的预测性能。(3)第一个构建了基于深度学习的跨物种巴豆酰化位点预测模型,命名为DeepKcrot。通过模型间性能的讨论与可视化展示,讨论了数据量对深度学习模型预测性能的影响。探讨了已发表的基于组蛋白的模型和非组蛋白的模型间是否相互适用的问题,并在DeepKcrot添加组蛋白巴豆酰化数据重新训练后,使其对于组蛋白和非组蛋白巴豆酰化修饰位点预测均表现优秀。随后比较了基于不同物种构建的模型和基于所有物种数据训练的模型间的性能差异,基于物种差异性,在DeepKcrot中保留了一个跨物种通用模型和四个特定物种模型。(4)开发了DeepKcrot算法的高性能在线预测服务器(http://www.bioinfogo.org/deepkcrot/)。