基于PPI网络的蛋白质功能预测研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chasel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
后基因组时代进一步研究的关键在于全面理解生物蛋白编码的表达、调控以及功能。对蛋白质进行功能注释是当前遗传学领域的重要研究课题之一,有助于科学家从分子层面理解生物体复杂的细胞机制,在揭示遗传密码和理解生命活动等问题中起着关键作用。蛋白质功能预测旨在利用计算方法自动注释蛋白质功能,近期的工作主要集中在利用深度学习避免复杂的特征工程,但这些模型普遍存在数据利用率不高的问题:一方面,通过监督学习提取序列特征的做法忽略了大量未标注的序列数据;另一方面,现有模型依赖人工设计的集成规则挖掘生物网络特征,不能有效利用网络数据的信息。为了解决现有方法的局限性,本文提出了一种基于同构网络的功能预测模型。首先,本文在功能预测任务中引入了预训练范式,通过预训练语言模型可以提取高效的序列特征,同时还实现了序列模型与网络模型的解耦。之后,该模型以蛋白质相互作用(Protein-Protein Interaction,PPI)网络为主体,融合序列相似性网络以降低数据中的噪声,进而通过节点属性集成序列分布式表示特征构建同构蛋白质网络。基于此,该模型将蛋白质功能预测问题转化为同构网络上的节点分类问题解决,并通过基于中心蛋白质约束的节点嵌入模型预测蛋白质功能。在人类数据集上的实验结果表明同构算法在多个指标上取得了当前最高的性能表现,其中在MFO分支上提升最大,分别在Fmax和AUPR指标上提升了9.1%和9.7%。基于同构网络的模型虽然性能较好,但只适用于有固定数量标签的场景。为此,本文引入异构网络来提高功能预测模型的扩展性,主要的改进有:第一,使用异构网络建模原始数据中的多种关联信息,能够避免手动设计网络融合规则,并最大程度降低了数据整合过程的信息损失。第二,该算法将功能预测任务转化为异构网络上蛋白质和功能术语节点之间关联关系预测问题解决,这使得模型能够处理非固定数量的标签。基于此,该算法使用基于注意力机制的异构网络节点嵌入算法学习蛋白质和术语节点的潜在语义表示,并引入双线性解码器计算二者表示向量相似度,进而预测蛋白质功能。实验结果表明,异构算法学习到了序列和网络数据的关键特征,实现了与同构算法相当的预测性能。同时,异构算法在数据集成灵活性和模型可扩展性方面更有优势,因此有更好的应用前景。
其他文献
随着我国城市化进程推进,城市扩张模式转变以集约化发展为主的存量模式,城市更新作为存量发展的重要手段,其具体内涵及手段受到多方关注。老旧小区分布广泛,存在设施老化、服务缺项、管理混乱、活力丧失等问题;老旧小区改造作为一项“民生工程”及“发展工程”,影响着城市经济发展、居民幸福感及功能设施布局等方面,是城市更新的重要组成部分。目前老旧小区改造工作聚焦于小区内部物质空间的改造,缺乏对周边城市空间更新的协
学位
转录后m RNA的加工在肿瘤的发生和进展中发挥着关键的作用,其中就包括N6-腺苷酸甲基化(m~6A)修饰和选择性剪接。METTL3是一种重要的m~6A甲基化转移酶,它的上调会增加m~6A水平并对肝细胞癌(HCC)的发展产生显著影响。然而直到如今,METTL3的选择性剪接还没有被充分研究过,其剪接异构体的功能仍不清楚。在本课题研究中,我们发现了在HCC细胞系和组织中,除了存在全长的METTL3-A外
学位
埃及伊蚊(Aedes aegypti)传播登革、寨卡、黄热、基孔肯雅病毒病等虫媒传染病,每年导致上亿人感染,在全球造成严重的公共卫生问题。由于上述传染病目前尚缺乏特效药物治疗,且无高效疫苗保护,对其传播媒介进行化学防治一直是防控虫媒病传播流行的主要方式。由于长期大量使用杀虫剂,蚊虫的抗药性与日俱增,近年来,有效地利用蚊虫嗅觉行为特征、寻找新的防治方法逐渐成为研究热点。在埃及伊蚊生活史中,群舞交配、
学位
随着时代的进步与社会的发展,寒地居民对健康的重视程度与日俱增,户外活动的需求呈现多元化趋势。然而居住区步行空间作为与居民日常活动紧密联系的场所,其环境品质与空间活力却未得到优质提升。为满足寒地人居环境宜居化建设以及居民日益增长的活动需求,提升居住区步行空间活力成为城市建设发展的重要课题。本文基于实地调研与问卷调查的数据结果,利用Depthmap句法分析软件量化步行空间的可达性与可视性,运用SPSS
学位
近年来,我国经济迅速发展,人民越来越重视家装的多样化。与此同时互联网商务的发展使得家装市场逐渐从传统线下商场转向线上电子商务。但是消费者在通过图片查看家装产品时获取信息不够直观且无法对多件家装进行组合搭配。而硬件设备性能的提升与增强现实相关理论的发展使得增强现实技术的应用越来越普及,利用增强现实来解决基于图片与数值参数查看家装信息过程中存在的痛点问题成为了可能。本文通过将增强现实技术在家装线上售卖
学位
随着中国正式进入老龄化社会,根据相关数据,中国已成为世界上老龄化人口增长最快的国家之一。人口老龄化的快速增长将对中国的经济和文化发展产生深远的影响。国家与地方政府印发一系列老旧社区与小区优化指导文件,各地老旧社区优化工作如火如荼地进行着。哈尔滨市老旧社区数量众多,辖内小区多数室外公共空间适老性差,并且普遍存在公共空间丧失活力与可达性、导向性差等问题,不能满足社区老年住户的需求。本文对老旧小区进行调
学位
【研究背景】癌症被认为是一种自我更新能力不受调控的疾病,严重危害着人类的生命健康。自20世纪中叶随着肿瘤干细胞学说(Cancer stem cells,CSCs)的提出,极大的激起了学者对肿瘤起源的研究兴趣。肿瘤干细胞通常由成体干细胞(Adult stem cells),祖细胞(Progenitor cells)和分化的细胞突变转化而来。间充质干细胞作为成体干细胞的一种,当遭受致癌基因突变后,细胞
学位
哈尔滨独特的地理位置,特殊的气候条件,别具一格的饮食习惯造就了独树一帜的冰雪文化。哈尔滨冰雪主题公园作为哈尔滨冰雪文化的物质载体,是展现哈尔滨城市形象的个性化名片。本研究以情感化理念为视角,构建了情感化理念与冰雪主题公园景观设计的关联性,通过了解游客对哈尔滨冰雪主题公园景观设计需求和评价,发现了哈尔滨冰雪主题公园景观设计的现存问题,制定了设计策略。本研究分为四个部分。首先,在阅读大量文献基础上确立
学位
目的:基于单细胞转录组测序(sc RNA-seq)研究参与红外激光致小鼠角膜损伤修复的细胞及其在修复中变化,探讨激光角膜损伤修复机制。方法:采用连续输出的3.74μm远红外激光照射C57BL/6J小鼠角膜,光斑直径2mm,照射时间0.8s,辐照量为23.2J/cm~2。于损伤前和损伤后3h、6h、12h、1d、3d、7d、14d和21d,采用组织病理技术,观察角膜损伤特点和损伤修复过程;使用10X
学位
知识蒸馏是知识迁移的一种实现方式,它使用训练好的复杂的教师模型来训练简单的学生模型,其中学生基于教师模型各类别上的预测概率,学习其中蕴含的暗知识,使得简单模型的分类性能可接近复杂模型的分类性能。知识蒸馏实际上是学生模型学习教师模型决策边界的过程,样本越靠近决策边界,学生模型学习的效果越好。因此,如何得到并更好的利用位于教师模型的决策边界附近的边界样本是知识蒸馏的核心问题之一。针对以上问题,本文利用
学位