基于深度学习模型的蛋白质功能预测

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:yinmeng6112501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是一类结构复杂与功能多样的生物大分子,在细胞和组织的生长和维持中扮演着重要的角色,是生命体的重要组成部分。了解蛋白质的功能对于理解细胞和生物的活动机制、研究疾病机理等至关重要。高通量测序的飞速发展,极大地拓展了我们对自然界物种蛋白质的认知,从而推动了蛋白质功能自动化注释方法的研究。截至目前,只有极少数的蛋白质具有实验验证的功能,仍有大量的蛋白质功能未能被注释,且其中有相当一部分与已知功能的蛋白质在序列上没有可观察到的显著相似性。尤其是随着宏基因组技术的广泛应用,大量未知的蛋白质被发现,进一步激发了对这些与已知功能蛋白在序列上不具有显著相似性的未知蛋白质的功能进行注释的需求,因为这些未知蛋白质的功能可能是生物适应相关环境、发挥特有功能或者变现独特表型的重要基础。由于许多序列上高度不相似的蛋白质,但可能具有相似的折叠模式,这意味着尽管它们的序列高度不同,但它们可能具有相同的功能,因此传统的基于序列相似性或结构域相似的方法(如BLAST,HMMER等)无法对这些蛋白进行准确的注释。Alpha Fold2的成功表明,蛋白质序列中隐含了其结构信息。因此,本文通过整合深度卷积神经网络、双向长短时记忆网络以及自注意力网络模型构建了名为Hi GO(Homology Independent GO annotation)的端对端模型,直接从蛋白质序列中提取隐含的结构信息,进而实现对蛋白质功能的注释。为了评估算法性能,我们利用CAFA3金标准数据集,将Hi GO与目前的蛋白质功能注释算法(Deep GOPlus,Na?ve,Diamond Blast,Diamond Score)进行比较。结果表明,在大多数的评估标准下,Hi GO均能取得较好的性能,其中MF,BP,CC的Fmax值分别达到0.608,0.462,0.641,AUPR值分别达到0.554,0.371,0.696。在保证算法可靠性的基础上,本文进一步将Hi GO应用于人类肠道微生物蛋白(Unified Human Gastrointestinal Protein,UHGP)中的未知蛋白的功能注释,同时发现了新的蛋白质家族和新的基序。此外,结构比对分析证明Hi GO可以提取与蛋白质功能相关的潜在结构特征,使其能够实现对非同源蛋白质的功能注释。Hi GO模型还可以应用于次级代谢产物合成基因簇的完整功能注释,有利于推导其代谢小分子,挖掘潜在的天然药物。总之,该模型是一种全新的蛋白质功能注释的方法,提供了快速且有效的蛋白质功能预测,扩展了对新测序生物体的蛋白质的理解。
其他文献
自闭症谱系障碍疾病(Autism spectrum disorder,ASD;以下简称自闭症)是一类遗传和环境因素共同作用导致的神经发育疾病,伴随着脑发育和行为的异常。丙戊酸(Valproic acid,VPA)是一种常用的抗癫痫药物,然而,流行病学研究发现,妊娠期间孕妇服用VPA药物是导致后代患有自闭症的一个重要风险因子。先前已经通过孕期施加VPA的方式在啮齿类动物和非人灵长类动物中成功构建了自
学位
弓形虫病,一种由弓形虫感染引起的人兽共患寄生虫病,这种病易引起免疫功能严重受损群体如恶性肿瘤患者的死亡。弓形虫依赖众多的分泌蛋白实现对宿主细胞的快速入侵,其中弓形虫微线体蛋白2(microneme protein 2,MIC2)是由其微线体分泌的与虫体运动和识别宿主细胞有关的关键蛋白。MIC2在虫体生长发育的各个时期都有表达,通常与其相关蛋白(MIC2-associated protein,M2A
学位
党的十九大报告提出,推进荒漠化、石漠化、水土流失综合治理,建设生态文明是中华民族永续发展的千年大计。生态文明建设再一次上升到了关乎民族和国家命运的高度。在喀斯特脆弱的生态环境下,研究石漠化地区的水土运移过程、提出水土漏失阻控技术,可以治理石漠化,推进生态文明建设。根据环境科学、地理学、土壤学等有关水文过程、水土保持、喀斯特水土漏失、混农林措施配置等理论,针对坡地水文过程与水土漏失研究、混农林阻控技
学位
食管鳞癌是一种发生于食管上皮组织的恶性肿瘤,其发病率和死亡率在亚洲地区尤其在中国一直居高不下。因此,我们亟需阐明食管鳞癌的致病机制,为食管鳞癌的治疗提供更加有效的策略。大量研究发现,转录因子SOX2在多种肿瘤的发生和发展中起着非常重要的作用。在食管鳞癌中,SOX2蛋白水平上的高表达能够促进食管鳞癌细胞的增殖、侵袭、迁徙和肿瘤干细胞形成等特性。本文主要开展对SOX2蛋白稳定性的调控机制研究,并探究通
学位
近年来快速的城市发展深刻改变了城市原有的生态景观格局,影响了植物多样性的组成与分布。崇明岛是当今世界上面积最大的冲积岛屿,也是上海市目前唯一一个正在经历城市化的地区。2017年上海市提出“举全市之力建设崇明世界级生态岛”的目标。因此,明确当前崇明区植物多样性组成与空间分布格局及受土地利用的影响程度,对于植物多样性保护和生态建设意义重大。本研究以上海市崇明成陆地区为对象,采用网格布点的方式,对布设的
学位
自国家出台证券客户交易结算资金第三方存管系统政策以来,为了满足监管要求并保证业务的正常开展,各商业银行纷纷开启三方存管系统的建设,与此同时,各券商也迫切建设证券存管中心系统,以方便对接各银行三方存管系统,实现银行与证券之间实时的资金划拨业务,满足投资者资金的灵活支配。目前国内券商的存管中心业务在证券集中交易系统实现,导致证券存管中心业务和集中交易系统耦合性高,出现了存管中心无法提供7*24的银证划
学位
细菌纤维素是由微生物发酵获得的天然纳米纤维素,具有天然的三维网络结构、大的比表面积、高结晶度、高力学强度、高亲水性、高透明度、高生物安全性、可生物降解的优点。这些优异的特点使其在食品添加剂、美容化妆品、生物医药、柔性电子、储能器件等领域得到广泛应用。细菌纤维素的生产需要大量的碳源,这使得细菌纤维素的生产成本较高,且微生物发酵周期长。纯净的细菌纤维素不具备多功能性,为拓展应用,通常需要对其表面进行化
学位
贵州百里杜鹃国家森林公园(简称“百里杜鹃”)拥有中国乃至世界已查明的面积最大的亚热带常绿阔叶原生杜鹃林,是全国唯一以保护杜鹃花科杜鹃属植物为对象的自然保护区,拥有独特、丰富的杜鹃森林资源。马缨杜鹃(Rhododendron delavayi)、露珠杜鹃(Rhododendron irroratum)和迷人杜鹃(Rhododendron agastum)是当地最主要的建群种和优势种。据前期调查发现,
学位
自然界中238U→234U→230Th衰变链是示踪地球化学过程的有利工具。以珊瑚为代表的海洋生物碳酸盐会从海水中吸收铀(U),并继承海水234U相对于母体238U和子体230Th过剩的特性。因而,珊瑚中U、Th同位素比值可示踪陆源物质输入变化,并为海洋研究提供年龄标尺。然而,受珊瑚高基体、低U、Th含量的限制,目前仅少数实验室能够开展珊瑚中高精度U、Th同位素比值分析。鉴于此,建立可靠的前处理流程
学位
智能建筑火灾的发生给国家和社会带来巨大的经济损失,甚至严重威胁着人民群众的生命安全。需对智能建筑火灾风险等级状况进行准确评估,以便火灾应急管理部门科学决策。本文着重关注智能建筑火灾相关风险因素对风险等级的影响,研究智能建筑背景下火情、建筑、环境和人员之间的相互关系,从贝叶斯网络模型和可信计算理论方法融合的角度出发,设计并实现一种用于智能建筑火灾风险分级评估的模型。本文主要在以下三个方面进行了研究:
学位