基于深度神经网络的新型冠状病毒RBD-ACE2结合亲和力预测

来源 :云南大学 | 被引量 : 0次 | 上传用户:taohappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新型冠状病毒(SARS-Co V-2)是一种RNA病毒,其Spike蛋白的受体结合域(RBD)与人类ACE2受体结合,从而介导病毒进入细胞。随着新型冠状病毒在全球的持续爆发,出现了大量RBD区域组合突变(相对于野生株)的新毒株。已有研究表明,RBD-ACE2的结合亲和力与新型冠状病毒的侵染能力相关。然而,通过生物试验方式获取突变毒株RBD-ACE2结合亲和力费时费力,且远远落后于突变株序列的积累,不能满足对病毒实时监控的需求。因此,为了快速准确获取具有组合突变毒株的结合亲和力,本文从定性和定量两个角度,分别设计深度神经网络模型用于预测RBD-ACE2的结合亲和力,为进一步实时监控突变株感染能力和传播能力提供依据。本文主要研究工作如下:(1)在RBD序列的分布式表示基础上,将蛋白质理化性质和RBD蛋白表达水平作为辅助特征融合到RBD的序列特征中,结合梯度提升决策树和卷积神经网络,建立RBD-ACE2的结合亲和力定性计算模型,定性预测突变毒株的结合亲和力。在真实数据集上对模型进行训练和评估,实验结果表明多种特征融合有助于提升病毒的分类效果。其次,将训练得到的模型应用到监测发现的关注变异株的结合亲和力分析上,进一步验证该模型在结合亲和力定性计算上的有效性。(2)以RBD序列为主要特征,结合卷积神经网络、循环神经网络与注意力机制,设计RBD-ACE2结合亲和力定量计算模型。首先,在真实数据集对模型进行训练和评估。其次,将训练得到模型应用到监测发现的关注变异株的结合亲和力定量分析上;通过对比文献公开值和模型预测值可以看到,该模型可以有效地计算具有组合突变的变异株的RBD-ACE2结合亲和力。(3)以本文设计的预测模型为基础设计开发了一个RBD-ACE2结合亲和力预测平台。该预测平台有登录模块、数据上传模块、数据管理模块、预测模块、统计分析模块,直观地体现了本研究的现实意义,也展现本文设计模型的实用性。
其他文献
深度学习在医学图像分析中的可使用性和潜力在过去几年中显著增加,由于医学图像的手动注释对于临床专家而言非常耗时,因此可靠的自动分割算法是处理大量医学图像数据注释的理想方式。医学图像的自动分割算法用于描述医学图像的解剖结构和其他感兴趣区域,并指导放射治疗和改进放射诊断。受深度学习的成功驱动,深度学习的应用潜力使其成为医学图像分割算法的主要选择。目前,在各种医学分割任务上,基于深度学习的自动分割算法取得
学位
视频目标跟踪技术能够根据初始帧给定的目标信息,在后续视频帧中得到该目标的运动参数。其在精确制导、智能导航等诸多领域有着广泛的应用前景。但实际的跟踪过程中存在各种复杂的情况,以至于视频目标跟踪算法要面对较多的挑战。本文主要针对相关滤波跟踪算法在目标遮挡、背景杂乱、快速运动等挑战中出现的响应图的多峰值的问题,基于多峰检测技术对相关滤波跟踪算法展开研究。本文开展的主要工作如下:第一,针对目标遮挡与目标形
学位
影响最大化是社会网分析的一个重要研究方向,在广告营销,舆情控制等领域具有广泛应用,影响最大化方法旨在寻找一组具有较高影响力的初始种子节点,最大化传播和扩散节点的影响范围。目前主要的影响最大化方法主要是针对同质社会网,同质社会网只是现实世界同类对象与对象之间关系的一种简述,并不能真正的表达现实社会中多种对象类型之间的社会关系。异质社会网中多种对象类型,多种对象间关系类型蕴含着丰富的结构和语义信息,有
学位
社交网络的发展为信息的快速传播带来了新的潜力,而确定网络中具有影响力的节点被视为这种潜力能够付诸行动的关键因素,影响力最大化的问题也由此被提出。影响力最大化问题旨在从给定的网络中找到固定大小的种子集,再经过特定的传播模型,使最终的信息扩散范围达到最大。正因为其在商业领域的巨大应用潜力,影响力最大化问题受到了广大研究者们的青睐。目前关于影响力最大化问题的研究大多都集中在同质信息网络,忽视了不同类型节
学位
信息时代的浪潮不断推进,但空间数据的指数级增长与海量数据的处理能力不匹配,由此空间数据挖掘应运而生。空间co-location模式挖掘能发现空间中频繁关联的特征,在空间数据领域得到广泛关注。本文研究的空间co-location主导特征模式挖掘方法,能够发掘不同重要性的空间特征,为空间数据分析及决策提供支持。在空间co-location模式的主导特征挖掘中,特征实例的空间分布状态是衡量模式中特征主导
学位
随着互联网上的数据海量增长,信息过载严重阻碍了人类社会的发展,推荐系统应运而生,它通过过滤、筛选匹配等手段,以解决信息过载的问题。传统的推荐系统核心问题是根据用户的历史反馈对用户和项目之间的交互进行建模,但这种建模的方式是静态的,只能捕获用户的共性偏好。在现实生活中,用户的习惯往往是序列化的行为,而不是独立的交互。此外,用户的偏好和物品的流行程度也会动态变化。不同的上下文通常会导致不同的用户项目交
学位
当今的大数据时代下,在数据挖掘、机器学习、图像、文本等领域中都存在类不平衡问题,类不平衡问题一般指不同类别之间样本数量的分布不平衡。基于机器学习的分类算法处理普通的平衡的数据集时较为有效,但数据集存在类不平衡问题时,会产生类别重叠、样本量小、边界模糊和小分裂群等问题,这将影响后续分类器的学习,导致其性能低下。目前解决类不平衡问题的方法可归纳为三类,数据级方法、算法级方法和集成方法。数据级的方法是针
学位
随着后基因组计划的进行,以及高通量生物测序技术的蓬勃发展,推动生物数据呈现出指数级的增长,生物计算已经渗透到了生物学的各个领域,以蛋白质的琥珀酰化为例,判断蛋白质序列中的哪些赖氨酸残基发生琥珀酰化修饰,是蛋白质功能研究中一项非常重要的工作。通过传统的方式来处理这种问题主要通过质谱分析的方法,这种方法会耗费过长的时间周期,以及巨大的人力财力,因此近年来开发了多种基于计算的方法。本文从蛋白质序列出发,
学位
随着在线社交平台飞速的发展,社交媒体成为人们获取信息的主要来源,在线营销成为主流的营销方式。大量商家将自己的产品在网络发布,通过社交网络进行病毒式营销。营销的关键在寻找具有影响力的种子用户,通过种子用户的口碑传播实现最大化影响范围,提升营销效果。为了找到符合要求的种子用户,影响力最大化问题被提出,并受到学界广泛的研究。传统的影响力最大化问题往往只关注影响范围,忽略了营销中的商业因素。真实的病毒式营
学位
伴随着我国对破产企业救治和清算工作的稳妥推进,破产相关案件的优化审理对市场规范、资源整合的重要影响也愈加凸显。破产和解制度作为破产的三大支柱之一,在对企业救治中发挥着积极作用,但其较之破产重整制度,其运用率仍然较低。探其缘由,一则是在美日等国对传统破产和解制度的深度改革,导致和解制度面临退出历史舞台之尴尬境地。另一则是由于作为替代机制的破产重整制度不断革新和发展,我国破产和解制度在立法上存在缺漏,
学位