论文部分内容阅读
蛋白质赖氨酸修饰是生物体内非常重要的一类修饰,发生在蛋白质翻译完成后,在蛋白质赖氨酸残基上共价结合不同分子基团或小蛋白质的过程。蛋白质赖氨酸修饰影响蛋白质的结构、活性以及定位,参与多种生物学过程,例如蛋白质降解、细胞分化、基因表达、DNA复制及损伤修复、体内代谢和自噬等。蛋白质赖氨酸修饰的异常状态常常与诸如癌症等疾病有着密切的关系。近年来,随着高通量质谱技术和赖氨酸修饰特异性抗体的飞速发展,积累了海量的蛋白质赖氨酸修饰数据。如何整合和挖掘这些数据并为实验研究提供有价值参考是该领域亟待解决的问题。因此,本文对蛋白质赖氨酸修饰进行了系统的生物信息学研究。我们首先构建了蛋白质赖氨酸修饰综合数据库PLMD 3.0。通过文献检索和数据库整合,我们搜集了176个物种中53,501个蛋白质上总共284,780个实验验证的赖氨酸修饰位点,涉及20种不同的赖氨酸修饰,包括九种酰化类修饰,四种泛素和类泛素修饰以及七种其它类型的赖氨酸修饰。基于PLMD数据集,我们发现16种赖氨酸修饰具有显著发生模体。此外,我们还发现65,297个赖氨酸修饰位点原位相互影响现象,表明不同赖氨酸修饰原位相互影响事件显著存在。迄今为止,PLMD数据库是包含修饰类型、物种数量、蛋白质和修饰位点总量最多,注释最为全面的蛋白质赖氨酸修饰数据库。此外,异常的赖氨酸修饰状态与多种疾病的发生和进展密切相关。为了更加深入了解蛋白质赖氨酸修饰在生物过程中的调控机制及与疾病关系,我们进一步构建了与人类疾病有关的蛋白质翻译后修饰(简称修饰)信息数据库PTMD 1.0。该数据库除了包含多种赖氨酸修饰-疾病关联信息(PDA)之外,一些其它类型修饰与疾病注释信息也被收录。通过人工检索文献,我们收集了1,950个与疾病有关的修饰信息。这些PDAs位于749个蛋白质上,涵盖了23种修饰类型和275种疾病类型。根据修饰状态对疾病的影响,所有已知的PDAs被分为六类,结果表明修饰状态的上调和修饰的出现与疾病有着更为紧密的关联,而复杂疾病的发展过程中,多个修饰可能相互干扰,相互作用。通过构建疾病-基因作用网络,我们发现乳腺癌与修饰状态的改变关系最为密切。修饰底物层面上,重要的蛋白激酶AKT1底物上修饰状态的异常与疾病最为相关。PTMD数据库带有非常详尽的注释信息,可以成为进一步分析修饰与人类疾病之间关系的有用资源。基于数据库中高质量的数据集可以训练计算模型,为识别蛋白质上潜在赖氨酸修饰位点提供了可供选择的方法。本文中,我们基于混合学习框架开发了赖氨酸琥珀酰化修饰位点预测工具HybridSucc。通过整合PLMD 3.0等数据库和文献检索,我们收集了13个物种中的8,830个蛋白质上26,243个实验验证的赖氨酸琥珀酰化位点。基于三种传统的机器学习算法,包括惩罚逻辑回归(PLR)、支持向量机(SVM)和随机森林(RF),七种蛋白质序列特征和三种结构特征的预测能力被系统评估。结果表明,这十种特征都是有效的。我们还实现了深度神经网络(DNN)框架并对十个特征进行考察。我们发现深度学习和传统机器学习算法在不同的特征上表现出截然不同优势。然后,通过合并DNN和PLR,我们开发了一种基于混合学习框架的琥珀酰化预测工具HybridSucc。相比之下,HybridSucc显著优于其它已有的琥珀酰化预测工具。利用HybridSucc,我们对全蛋白组潜在功能性的琥珀酰化位点进行筛选,并且筛选出5,251个已知和3,615个潜在的可能有功能的琥珀酰化位点。此外,我们将The Cancer Genome Atlas(TCGA)数据库中所有癌症突变映射到人类琥珀酰化位点上,并定义与琥珀酰化位点有关的癌症突变(KsuMs),开发了一种渐进分布概率密度(GDPD)的统计方法评估癌症突变对琥珀酰化位点的影响。最后,我们在218个基因上鉴定出370个潜在的KsuMs,包括许多被反复报道与肿瘤发生有关的基因,如丙酮酸激-M2(PKM2),丝氨酸羟甲基转移-2(SHMT2)和异柠檬酸脱氢-2(IDH2)等。综上所述,本文围绕蛋白质赖氨酸修饰及其与疾病关系展开一系列工作。首先,我们收集整合了不同物种中多个类型的赖氨酸修饰位点,构建了蛋白质赖氨酸修饰综合数据库。同时,为了更加深入了解赖氨酸修饰在生物过程中的调控机制及与疾病关系,我们进一步构建了与人类疾病有关的蛋白质翻译后修饰信息数据库。基于数据库中高质量数据集,通过融合深度学习和传统机器学习,本文开发了一种基于混合学习框架的赖氨酸琥珀酰化预测工具,为今后蛋白质赖氨酸修饰位点识别,分子机制及调控作用的研究提供了新的思路。