蛋白质赖氨酸修饰数据库构建及生物信息学预测

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:pigyufish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质赖氨酸修饰是生物体内非常重要的一类修饰,发生在蛋白质翻译完成后,在蛋白质赖氨酸残基上共价结合不同分子基团或小蛋白质的过程。蛋白质赖氨酸修饰影响蛋白质的结构、活性以及定位,参与多种生物学过程,例如蛋白质降解、细胞分化、基因表达、DNA复制及损伤修复、体内代谢和自噬等。蛋白质赖氨酸修饰的异常状态常常与诸如癌症等疾病有着密切的关系。近年来,随着高通量质谱技术和赖氨酸修饰特异性抗体的飞速发展,积累了海量的蛋白质赖氨酸修饰数据。如何整合和挖掘这些数据并为实验研究提供有价值参考是该领域亟待解决的问题。因此,本文对蛋白质赖氨酸修饰进行了系统的生物信息学研究。我们首先构建了蛋白质赖氨酸修饰综合数据库PLMD 3.0。通过文献检索和数据库整合,我们搜集了176个物种中53,501个蛋白质上总共284,780个实验验证的赖氨酸修饰位点,涉及20种不同的赖氨酸修饰,包括九种酰化类修饰,四种泛素和类泛素修饰以及七种其它类型的赖氨酸修饰。基于PLMD数据集,我们发现16种赖氨酸修饰具有显著发生模体。此外,我们还发现65,297个赖氨酸修饰位点原位相互影响现象,表明不同赖氨酸修饰原位相互影响事件显著存在。迄今为止,PLMD数据库是包含修饰类型、物种数量、蛋白质和修饰位点总量最多,注释最为全面的蛋白质赖氨酸修饰数据库。此外,异常的赖氨酸修饰状态与多种疾病的发生和进展密切相关。为了更加深入了解蛋白质赖氨酸修饰在生物过程中的调控机制及与疾病关系,我们进一步构建了与人类疾病有关的蛋白质翻译后修饰(简称修饰)信息数据库PTMD 1.0。该数据库除了包含多种赖氨酸修饰-疾病关联信息(PDA)之外,一些其它类型修饰与疾病注释信息也被收录。通过人工检索文献,我们收集了1,950个与疾病有关的修饰信息。这些PDAs位于749个蛋白质上,涵盖了23种修饰类型和275种疾病类型。根据修饰状态对疾病的影响,所有已知的PDAs被分为六类,结果表明修饰状态的上调和修饰的出现与疾病有着更为紧密的关联,而复杂疾病的发展过程中,多个修饰可能相互干扰,相互作用。通过构建疾病-基因作用网络,我们发现乳腺癌与修饰状态的改变关系最为密切。修饰底物层面上,重要的蛋白激酶AKT1底物上修饰状态的异常与疾病最为相关。PTMD数据库带有非常详尽的注释信息,可以成为进一步分析修饰与人类疾病之间关系的有用资源。基于数据库中高质量的数据集可以训练计算模型,为识别蛋白质上潜在赖氨酸修饰位点提供了可供选择的方法。本文中,我们基于混合学习框架开发了赖氨酸琥珀酰化修饰位点预测工具HybridSucc。通过整合PLMD 3.0等数据库和文献检索,我们收集了13个物种中的8,830个蛋白质上26,243个实验验证的赖氨酸琥珀酰化位点。基于三种传统的机器学习算法,包括惩罚逻辑回归(PLR)、支持向量机(SVM)和随机森林(RF),七种蛋白质序列特征和三种结构特征的预测能力被系统评估。结果表明,这十种特征都是有效的。我们还实现了深度神经网络(DNN)框架并对十个特征进行考察。我们发现深度学习和传统机器学习算法在不同的特征上表现出截然不同优势。然后,通过合并DNN和PLR,我们开发了一种基于混合学习框架的琥珀酰化预测工具HybridSucc。相比之下,HybridSucc显著优于其它已有的琥珀酰化预测工具。利用HybridSucc,我们对全蛋白组潜在功能性的琥珀酰化位点进行筛选,并且筛选出5,251个已知和3,615个潜在的可能有功能的琥珀酰化位点。此外,我们将The Cancer Genome Atlas(TCGA)数据库中所有癌症突变映射到人类琥珀酰化位点上,并定义与琥珀酰化位点有关的癌症突变(KsuMs),开发了一种渐进分布概率密度(GDPD)的统计方法评估癌症突变对琥珀酰化位点的影响。最后,我们在218个基因上鉴定出370个潜在的KsuMs,包括许多被反复报道与肿瘤发生有关的基因,如丙酮酸激-M2(PKM2),丝氨酸羟甲基转移-2(SHMT2)和异柠檬酸脱氢-2(IDH2)等。综上所述,本文围绕蛋白质赖氨酸修饰及其与疾病关系展开一系列工作。首先,我们收集整合了不同物种中多个类型的赖氨酸修饰位点,构建了蛋白质赖氨酸修饰综合数据库。同时,为了更加深入了解赖氨酸修饰在生物过程中的调控机制及与疾病关系,我们进一步构建了与人类疾病有关的蛋白质翻译后修饰信息数据库。基于数据库中高质量数据集,通过融合深度学习和传统机器学习,本文开发了一种基于混合学习框架的赖氨酸琥珀酰化预测工具,为今后蛋白质赖氨酸修饰位点识别,分子机制及调控作用的研究提供了新的思路。
其他文献
近年来,随着互联网消费金融快速发展及互联网技术飞速进步,消费金融市场结构也逐步转变,银行消费金融、消费金融公司、互联网消费金融及其他机构蓬勃发展。本文主要探索信托
该文分析了英语专业口语教学中的两个误区——重说不重听和全靠口语课,指出只有听说读写并重,各科相互配合,才是英语专业口语教学之道。
"科学探究与创新意识"是化学学科核心素养重要内容之一。化学教学中倡导真实问题情境是化学教学的本原回归,也是发展学生核心素养的现实要求。教学中利用真实问题情境的客观
近十年来,我国银行业的资产规模、利润等指标高速增长,不良贷款逐年下降,呈现稳步快速发展的态势。当前,我国经济发展已进入新常态,为顺应经济运行状况与宏观经济政策的调整,
在迈进21世纪以后,随着经济和科技的发展,企业间的相互竞争已经从最初的企业和企业的竞争,转变成企业所在的供应链之间的相互竞争。企业开始专注于自身的核心竞争力发展,纷纷
由加拿大妇产科医生协会(SOGC)制定的妊娠期糖尿病指南综述了关于妊娠期糖尿病诊断和产科管理的相关证据,评价母婴的短期和长期结局,包括先兆子痫、剖宫产、将来患糖尿病和其
做人最高的境界是什么?曾国藩说:“做人要收敛。”做人的最高境界是:苦而不言,喜而不语。苦而不言不是要你打断牙和血吞,什么亏都吃下去,而是少抱怨,学会吃一点无伤大雅的亏
期刊
艺术设计产业作为文化创意产业的重要组成部分,在很多发达国家的主要城市已形成了一定的产业规模。我国的艺术设计产业在北京、上海、深圳、杭州等地区的发展也日新月异。连
近年来,对于多智能体系统的分布式协同控制理论的研究吸引了来自国内外众多专家和学者的关注,不仅由于该理论在无人飞行器、机器人、传感器网络等诸多实际应用领域的广泛应用和发展前景,也因为其具有鲁棒性、经济性和灵活性等许多传统的、集中式的控制方法所不具有的优势。多智能体系统的一致性问题作为该领域的基础问题,旨在利用智能体之间局部信息的交互来实现全局状态的一致。在动态系统中,收敛速度作为评估控制系统性能的重
背景自2003年我国部分地区相继先后出现严重急性呼吸综合征(Severe Acute Respiratory Syndrome, SARS)和禽流感(influent virus A- H5N1,H5N1)的流行以来[1],国内外不断有新