基于GNN和Transformer的化合物-蛋白质亲和力预测研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:jzaf_com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新冠肺炎疫情刚刚过去,持续三年时间的疫情促进了药物研发人员对高效开发药物的研究。针对疾病进行药物研发可以减轻病人的症状,降低社会负担,提高人民的健康生活水平。传统的新药研发流程耗时费力,药物再利用成为了药物研发人员一个可行的选择。不论是新药研发还是药物再利用,关键的步骤是确定候选药物和疾病靶标的的相互作用。药物和靶标的结合亲和力是衡量二者相互作用的重要指标,化合物可以与靶标结合产生药效的前提是与靶标以高亲和力相结合。如今是大数据和人工智能时代,现存的数据库中含有大量的药物化合物和蛋白靶标数据及其相互作用信息,这允许药物再利用的研究不在局限于现有药物库而可以扩展到更大的化合物空间来寻找具有高亲和力的潜在药物或先导化合物。传统的计算化合物-蛋白质亲和力的方法已经无法满足现在的高效需求,随着深度学习方法在各个领域的流行,使用深度学习方法开发准确高效的化合物-蛋白质亲和力的计算方法对加速药物研发进程意义重大。本文基于图神经网络(GNN),Transformer模型和Mutual-Attention机制构建预测化合物-蛋白质亲和力的深度学习模型。主要工作如下:(1)首先将化合物分子表征为分子图结构,并为分子中每个原子构建丰富的化学信息,兼顾分子的二维拓扑结构信息和化学信息,进而使用GIN提取分子的整体特征。使用基于自注意力机制的Transformer编码器对蛋白质氨基酸序列提取特征并产生高质量特征嵌入,注意力机制可以全面学习蛋白质中各个氨基酸残基之间的关系。克服了以往的工作中使用SMILES序列表征化合物分子无法包含丰富结构和化学特征的缺点,以及使用CNN无法提取序列数据的全面分子信息的弊端。最后将化合物整体特征嵌入和蛋白质整体特征嵌入连接送入全连接神经网络得到亲和力预测值。在两个数据集上与7个先进基准模型的对比分析证明了本文模型与前沿方法相比极具竞争力的性能,并表明对分子表征和提取特征所做的处理工作是有效的。(2)在(1)的基础上从增强深度学习模型的可解释性出发,将化合物-蛋白质相互作用的可解释性定义为化合物中原子和蛋白质中氨基酸的分子间相互作用,增加构建了Mutual-Attention模块使模型自动捕捉到对相互作用贡献度较高(具有高注意力分数)的化合物原子和氨基酸残基。药物化合物通常在靶蛋白的某些特定位置结合并发挥药效,称为结合位点(相互作用位点),高注意力分数的原子和残基可以看作潜在的相互作用位点。此改进模型的亲和力预测性能进一步提高,并以一个蛋白质和其配体为例,对模型中Mutual-Attention模块的注意力分数进行可视化分析,结果表明高注意力的位置和实际相互作用位置具有部分重叠,这既增强了可解释性又可以帮助药物研发人员缩小相互作用位点的搜索空间。最后使用此改进模型对阿尔兹海默症(AD)相关蛋白在FDA批准的药物库中筛选高亲和力药物,此案例结果为筛选出的高亲和力药物部分已经存在于抗AD药物库中,说明了此改进模型在药物研发中的实际应用过程并且具有一定的可靠性。综上表明此改进模型具有高准确率和可解释性,并可以应用于针对某些疾病的高亲和力药物发现。
其他文献
提出了一种基于异构图神经网络(HGNN)的药物重定位方法。该方法对药物-疾病关联网络、药物-药物相似性网络和疾病-疾病相似性网络的信息进行并行融合,有效地保留了各个网络的信息。此外,针对图卷积神经网络(GCN)提取信息能力的不足,本工作加入了图注意力网络(GAT)和层注意力机制,增强了特征提取能力,进一步提高了模型的预测性能。实验验证表明,提出的网络在Fdataset上达到了94.4%的AUROC
期刊
新药开发需要耗费很高的成本,建立高效且高准确度的药物新适应症预测方法非常重要,提出一种基于图神经网络协同过滤的药物疾病关联预测方法,获取药物与疾病治疗关系中的信息并结合药物相似性获得更好的预测表现。首先通过图神经网络提取药物-疾病治疗关系数据中的协作信号细化药物嵌入,然后利用嵌入计算药物之间的治疗关系相似性,再结合药物化学结构、蛋白质和副作用相似性预测药物的新作用。与现有的协同过滤方法在相同数据集
期刊
随着人工智能的快速发展,深度学习已经在图像、文本和语音等可在欧式空间表示的数据中取得了巨大成功,但却一直无法很好地应用于非欧式空间。近年来,随着图神经网络的出现,其已经在非欧几里得空间中展现出了强大的表示学习能力,并广泛应用于推荐系统,自然语言处理以及机器视觉等众多领域。图神经网络模型基于信息的传播机制,具体地,图中的目标节点通过聚合邻居节点的信息,以更新自身的嵌入表示。利用图神经网络,我们可以将
期刊
变压器直流电阻的测量及结果分析是电力行业运维过程中的核对工作之一。本文主要介绍了直流电阻测量方法的原理,以及方法的改进依据,并运用实例对方法进行对比,从而给出相关检测建议。
期刊
文章基于慕课概述,首先分析了慕课教学模式的优点,然后提出了慕课视域下高校教学改革策略,包括做好顶层规划设计,优化平台资源配置;树立科学教育理念,完善多元评价体系;增加课程学习黏度,提高资源使用效率;等等。
期刊
住宅及内装工业化能够节约资源、提高效率和降低成本,在中国虽有政策支持和较大的市场空间却发展不力。本文以日本为例,探究其政策如何支持住宅内装工业化发展,产业系统如何可持续运转,分析日本在政策引导、产业机制、市场协调、国民意识、本土化等方面的现实做法,为我国产业发展和可持续运转提供启发。
期刊
本文简要回顾了发行纪念专刊的初衷和目的,总结了纪念专刊收录22篇文章的领域和范围,并对部分文章主要内容做了简单评述。
期刊
预测药物与蛋白质的相互作用在新药物设计过程中,一直是一个重要的研究内容,然而采用传统的生物实验完成需要耗费大量的时间和物质成本。近年来,随着人工智能与大数据的不断发展,基于机器学习预测药物与蛋白质的相互作用的算法逐渐出现,但这些算法都存在不能大规模预测、预测精度低和所需先验信息难以获取等问题。为此,本文提出了基于图神经网络的蛋白质与药物/蛋白相互作用的预测算法,研究工作有以下3个内容:(1)为有效
学位
随着生物制药技术的快速发展,药物相互作用(Drug-Drug Interactions,DDI)已成为医学领域对药物研究的重要研究内容。药物相互作用是指当两种或多种药物同时使用时,其中一种药物可以影响另一种药物的药效,导致不良反应、拮抗作用或协同作用。因此,预测DDI是临床医生和药物研发人员需要重视的问题。现在有许多计算方法和工具可用于预测DDI,包括基于结构、药物代谢途径和药物-靶标相互作用等方
学位
药物研发是促进社会健康稳步发展的重要手段,药物与靶标蛋白的识别是当代新药研制的关键。在过去的几十年里,人们进行了许多生物学实验来确定药物和靶标之间的相互作用,但都越不过研发周期长、成本高效果低以及需要大量财力物力这三大障碍。随着大数据处理技术的飞速发展,智能计算应运而生,研究人员可以通过计算机的模拟、计算和预测药物与靶标蛋白之间的关系,来解决传统方法存在的缺陷,整合提取药物和靶标蛋白的特征数据,利
学位