基于深度学习和多维度编码分子信息的分子属性预测研究

被引量 : 0次 | 上传用户:longkeming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物发现是一个高风险、高投入且成功率较低的过程。为提高药物研发的效率,降低药物研发的风险和成本,深度学习技术已经被成功应用于药物发现的各个阶段。其中,基于深度学习对分子属性快速准确预测,能显著加速先导化合物的发现和优化过程,在药物发现中发挥着不可或缺的作用。然而目前基于深度学习的分子属性预测方法中仍存在较多问题有待进一步解决,如大部分现有模型缺乏可解释性、模型的泛化能力差、对分子特征的描述不够全面等。其中,分子表征方法是能影响模型准确性、提升模型可解释性和泛化能力的重要因素,本论文针对现有分子表征模型方法的不足,重点开展了如下两个工作:1.为构建全面的分子表征方式,本工作提出了一个基于注意力机制的多维度表征的分子属性预测模型—Attention based Sequence and Graph Encoder(ASGE)。模型使用频繁连续子序列算法(Frequent Consecutive Subsequence,FCS)将SMILES序列分解为更小的子序列结构或者单个原子结构,并以Transformer模型架构为基础构建分子序列编码器,编码药物分子序列特征。此外,利用RDKit将SMILES处理成为分子图,并利用图注意力网络Attentive FP编码分子图特征信息,提取分子中所包含的原子和键结构信息,学习分子内关键节点和连接。最终经特别设计的特征解码器融合序列和图特征信息预测分子属性。本工作使用Molecule Net中的8个数据集对模型进行训练、验证和测试,ASGE在其中6个数据集中获得最佳性能,如在Clin Tox数据集中,ASGE的AUC值要比FP-GNN高出0.081,在BACE数据集中,ASGE的AUC值要比Gra Seq高出0.082。并对影响分子属性的关键节点可视化,为分子的进一步优化设计提供了一定程度的指导。还通过大量消融实验验证了多维度编码分子对提升模型性能的必要性,证实了我们的模型ASGE利用多维度的分子表征方式编码分子特征能够全面准确地预测分子属性。这为以后的研究提供了一种新的分子特征融合思路,并能广泛应用于其他药物发现的模型任务中。2.基于融合分子图信息、组合分子指纹信息以及三维空间信息多种维度表征编码药物分子,发展了一个基于图神经网络的分子属性预测模型—3D Spatial Structure and Molecular Fingerprint Graph Network(3DF-GNN)。该模型同时考虑三种维度的分子表征方式,利用RDKit得到分子的二维分子图和三维空间信息,构建引入额外注意力机制的卷积神经网络进行编码,捕捉重要的分子特征信息。此外,还组合了两种不同侧重的分子指纹,并利用深度神经网络学习分子指纹特征信息,最终融合两条路径上所有的特征信息预测分子属性。本工作分别在分类和回归7个广泛使用的基准数据集中开展实验评估模型性能,整体上在5个数据集中获得最佳性能,1个数据集中获得次优性能,如在Free Solv数据集中3DFGNN模型的RMSE值比Attentive FP模型降低了0.671,在HIV数据集中3DFGNN模型的AUC值比FP-GNN模型高出了0.042。并通过大量的消融实验,验证了考虑空间信息的多维度编码对表征药物分子的重要意义,证明了模型3DFGNN的优越性。此外,对分子关键节点的可视化结果分析也为分子更进一步优化设计提供了一定程度的指导。据研究调查,本工作所提出的3DF-GNN是第一个综合考虑三维空间信息、分子图和互补组合分子指纹信息预测分子属性的研究,具有首创性意义。我们所提出的模型方法3DF-GNN能够准确预测分子属性,其设计思路也为进一步探索准确预测分子属性的模型提供了参考,此外,还可以作为一个强大而有效的计算工具来解决分子表征学习这个挑战性问题,最后,我们还针对该模型创建了相关网站,以便药物研究人员使用。本论文主要从多维度编码表征药物分子进而提高分子属性预测准确性的思路开展了两项研究工作,并开发了两个神经网络模型架构。特别是本论文提出的融合多种维度分子特征以及考虑高维度分子结构特征能够更全面的表征分子,为分子表征学习提供新思路,助推药物研发进展,具有重要的理论和实际应用价值。
其他文献
基于应急通信车系统本身组成的体系性、系统性、层次性,以及使用环境高热、高寒、潮湿、盐雾、低气压、淋雨、砂尘等综合应力影响的多面性、复杂性,提出一种基于系统分层和条件分域的应急通信车环境适应性设计方法。首先对环境适应性分层分域设计的理论和方法进行研究,分析了环境适应性设计的定义和内涵,提出了分层分域设计的理论和模型,建立了分层分域设计的方法和流程;然后将分层分域环境适应性设计方法在应急通信车上开展工
期刊
在高中历史课堂教学中渗透生涯决策教育,符合新一轮高考综合改革要求。教师可以引导学生在时空背景的分析中明确个人与时代的关系,在历史人物的生涯起伏中理解个人与国家的关系,在对历史人物评价中树立正确的职业价值导向,从而在历史事件和历史人物的生涯经历中获得借鉴,做出正确的生涯决策,指导未来的生涯发展。
期刊
短波通信作为无线电通信的重要组成部分,在抗洪抢险、国际援助等多样化行动中发挥了重要作用。本文通过对短波传输原理及传播特性的研究,基于理论分析和实践研究,从技术应用角度提出几种保障短波应急通信能力的方法。
期刊
随着证券市场的不断发展和竞争的加剧,客户关系管理已经成为证券公司重要的战略和竞争优势。本论文以华龙证券江西分公司为案例研究对象,通过对该公司客户关系管理现状的调研和分析,提出了一些优化建议。在调研分析过程中,本论文采用了多种研究方法和手段,包括文献综述、问卷调查、深度访谈等。本文针对华龙证券江西分公司的客户关系管理现状,分析了其存在的问题和不足之处,主要包括客户信息管理不够完善,客户分类和挖掘不够
学位
情感认知是人类的高级认知活动,它也是人工智能不可或缺的部分,在人机交互中要求机器具备情感认知的能力,使得机器与人具有共情性。心理学研究表明,视觉内容(如图片和视频)能诱发观察者的多种情感反应[1],并且随着互联网的发展,人们也越来越喜欢通过上传图片和视频到社交媒介(如微博、微信和Twitter)来分享他们的感受,表达他们的情感,视觉内容能传达和影响人类的情感。本论文主要关注图像的情感语义分析,图像
学位
在现代农业生产过程中,植物病害会严重降低农作物产量从而威胁粮食安全。近些年随着人工智能技术的发展,不少学者采用计算机视觉结合深度学习的解决方案应用于检测植物病害。但是,由于该技术在农业生产应用场景下仍然存在一些问题。本文以复杂环境下植物病害检测为核心问题,通过构建深度学习检测模型,提高在复杂环境下植物病害的检测准确率及鲁棒性。主要工作归纳如下:1.复杂环境下植物病害检测的研究。针对复杂环境下病害检
学位
快速发展的物联网已成为支持数字经济升级转型的关键基础设施之一,机器与机器(Machine-to-Machine,M2M)通信可以为物联网应用提供泛在的信息交互能力。随着各种新兴物联网应用的涌现,全球范围内M2M连接数量呈现出爆炸式增长,这不仅带来了巨大的市场机遇,同时也对M2M通信网络提出了新的需求与挑战。然而,现有的大多数无线通信网络以支撑移动互联网等业务为主要目标,无法高效精准地满足海量物联网
学位
算法私权利的旧属性与算法公权力的新属性仍处于并存阶段,罔顾针对其私权利性质的保护,只谈针对其公权力性质的制约,既不符合现实情况,也不利于算法技术及社会的健康发展。同时,算法秘密性的必要性不能为算法公开的必要性所否定,二者于算法治理具有同样的重要性。因此,应当积极推动作为算法私权保护模式之一的算法商业秘密保护模式与算法治理相关制度的衔接,助力算法治理。算法作为新型商业秘密客体,存在以下主要适用困境:
学位
直觉模糊和证据理论作为人工智能时代下研究不确定信息处理的重要手段,已被广泛应用在模糊识别、图像检测等重要领域。基于直觉模糊集和证据理论的多属性群决策法则被认为是解决复杂、大型问题时最有效方法之一。考虑到直觉模糊集和区间证据理论的相关性,本文从直觉模糊的角度出发提出了一种计算区间证据距离的方法,并利用改进的区间证据距离求出区间证据可信度进行多属性决策。首先,总结直觉模糊集和区间证据理论的相关知识,提
学位
近年来,疫情的突然爆发导致经济比较萧条,货物出口额在缩小,各行各业都受到了不同程度的影响。作为中国国民经济的重要支柱性产业之一,家电行业关系到人类的福祉,经济的稳定与人类社会的长治久安。因此,对其进行财务绩效分析是非常有必要的。家用电器的多元化发展和差异化经营去迎合人们的需求,受到了广大市民的青睐,家电行业充满了广大的市场空间与发展机遇。对于家电行业进行财务绩效评价分析,可以了解该行业的财务状况,
学位