基于门控图卷积神经网络的有机化学反应预测研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:lhasrq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的新药研发面临着投入高、耗时长、成功率低的困境。根据《美国医学会杂志》提供的数据,开发新药的平均成本约为28亿美元,新药研发的平均时长约为14年。药物合成路线设计实质上是一个化学分子逆向合成问题,即如何利用化学原料库中常见的分子设计出合成路线以合成目标分子。目前药物合成路线设计的主要方法为在单步逆合成反应预测模型的基础上结合蒙特卡洛树搜索算法进行路径搜索。当前药物合成路线设计模型仍然面临诸多困难,其所推荐的药物合成路线可能并不能成功合成目标分子。药物合成路线设计主要瓶颈在于:(1)化学分子搜索空间巨大,单步逆合成反应预测困难,模型的准确率偏低(2)可供学习训练的化学反应数量不足,且化学反应类型的数量分布不均匀容易给模型训练带来偏见(3)路线搜索效率较低、搜索时间过长。为解决上述问题,本文设计了单步正向反应预测模型辅助生成目标分子合成路径的方法。本文的主要研究内容如下:(1)针对化学反应类型的数量分布不均匀的问题。本文设计了一种主动采样的训练方式,即学习完一轮完整的训练集数据后,在开始下一轮完整的训练过程之前采集loss值较高的反应类型数量较少的数据先进行训练。通过增加反应类型数量较少的反应的训练次数,可以缓解反应类型的数量分布不均匀给模型训练带来的偏见问题。(2)为了高效准确的预测有机化学反应产物,本文设计了一种基于主动采样训练的门控图卷积神经网络模型(Active Sampling-training Gated Graph Convolutional Neural-network,ASGGCN)。模型首先输入化学反应物的SMILES编码,通过门控图卷积网络以及注意力机制预测反应中心所在位置,然后根据化学约束条件枚举出可能的化学键组合来生成候选产物,再通过门控图卷积差分网络对候选产物进行筛选,最终得到反应产物。门控图卷积神经网络拥有三个权重参数矩阵并通过门控对信息加以融合,相比传统的图卷积神经网络门控图卷积神经网络能够获取更加丰富的原子隐藏特征信息。实验结果表明ASGGCN对化学反应产物Top-1预测准确率可达87.2%,对比WLDN模型提高了1.6%,对比Seq2Seq模型提高了6.9%,模型能够更准确的预测有机化学反应产物。(3)针对单步逆合成模型准确率偏低以及合成路线搜索效率较低的这两个问题,本文设计了单步正向反应预测模型辅助生成目标分子合成路径的方法。单步正向反应预测问题所考虑的分子仅为反应物分子,数目有限,故相比于单步逆合成反应预测模型准确率更高。通过单步正向反应预测模型对单步逆合成反应预测模型的结果进行验证,将错误结果分支进行裁剪可以提高化学可行性,并减少合成路径搜索范围提高搜索效率。
其他文献
膜分离作为一种高效低能耗的环境友好型分离技术已被广泛研究及应用,其中膜的通量和截留作为评价膜性能的两个关键指标,对膜在分离应用过程有着重要影响。本课题基于多孔共价有机骨架材料(COF-LZU1),采用不同的设计方案,进行新型复合膜的开发及其在染料废水处理中的应用。首先,选用聚醚砜(PES)微滤基底代替传统超滤基底,采用界面聚合的方法室温条件下在PES底膜表面原位生长COF-LZU1,通过调节反应单
自上世纪九十年代起,信息无障碍就引起发达国家的注意。让更多的残障人士、老年人等信息获取弱势群体通过互联网获得平等信息获取机会、继续为社会创造价值,成为越来越多的国家推进信息无障碍的目标。我国的信息无障碍发展比发达国家起步晚,即使目前仍有差距,但是现在信息无障碍建设工作的开展在国内正在获得社会各界的重视和帮助,并取得了相应成就。公共图书馆网站作为一个蕴含无数数字信息资源的信息知识传播中心,肩负着缩小
长期以来,我国农业采取粗放型生产方式,农业经济发展建立在化肥、农药等生产要素高消耗、低利用和污染物高排放基础上,造成我国农业生态环境不断恶化,可持续发展严重受阻。因此,需要寻求生态友好的农业发展模式,突破当前农业发展面临的困境,循环农业遵循“3R”发展原则,保护生态环境,资源高效利用,是农业可持续发展有效模式之一。近年来,我国循环农业蓬勃发展,形成一些典型模式,需要科学依据评价这些模式应用的可行性
学位
随着智能语音技术的快速发展和人工智能相关应用的兴起,声学场景分类(Acoustic Scene Classification,ASC)已逐渐被应用到人们的日常生活中,它是利用音频信号处理和深度学习技术完成对声学场景(家庭、公园、街道场景…)的识别与分类,从而达到识别周围环境的目的。针对声学场景分类问题,本文从3个角度展开研究,分别是基于传统声学表征的声场分类、基于端到端的声学建模及基于多特征系统的
随着工业化进程加快,纺织业市场需求量不断扩大,生态环境中存在大量难处理的印染纺织废水。本文以聚丙烯无纺布织物(PP)为基材,通过辐射接枝的手段接枝甲基丙烯酸缩水甘油酯(GMA)进行预处理,后续分别选择胺类和β-环糊精,针对GMA支链的环氧基团进行开环,分别制备了用于催化还原4-硝基苯酚的PP-g-EDA@Ag/Cu、PP-g-DEA@Ag/Cu和用于吸附双酚A和其他染料的PP-g-βCD。本论文主
代码异味是由开发人员不良的编程习惯或者违背设计原则而引入的深层次软件质量问题,是糟糕的代码或设计的体现。在实际的软件系统中,一个类或方法可能同时存在多种代码异味,且一些代码异味有一定的相关性,一起频繁出现的概率较大,它们之间的相互作用使得代码的可读性和可理解性降低,增加了软件系统的复杂度和可维护性难度,从而导致软件质量明显下降。此外,代码异味有多种出现形式,如方法级的代码异味往往引起类级的代码异味
人类的皮肤位于人体的表面,是影响外貌的重要因素,也是人体抵抗疾病侵袭的重要屏障。皮肤色素分离,通过分析人体皮肤的彩色图像,从图像中分别计算提取出,色素的相对含量和分布数据,其中包括皮肤中的两种主要色素:黑色素和血色素。皮肤镜的图像分割,目的是为了检测皮肤损伤区域的位置和边缘轮廓。随着计算机技术的不断发展,使用计算机分析皮肤色素分布,对化妆品和医疗行业有良好的辅助作用。同时,计算机辅助诊断广泛应用于
宫颈癌是一种高致死率的妇科疾病,严重危害着女性的健康。目前,针对宫颈细胞的处理方法的核心技术主要包括三大步骤,分别是细胞分割、特征提取和特征融合、细胞分类。传统的宫颈细胞处理方法的性能很大程度上取决于分割的准确性和手工制作特征的有效性,且任意一个环节的处理都会影响最终的检测效果。目标检测算法将目标分割和识别合二为一,不需要任何的预分割步骤,只要能够保证检测算法的有效性,就能够保证最终的检测效果,加
随着经济全球化、区域一体化的持续推进,信息网络、交通运输的飞速发展大大地压缩了城市间的时空距离,城市间交流频率增加、速度加快,原有地理空间结构被一种网络的关系所渗透和重构,大、中、小城市在不同空间尺度下互联形成了一种复杂多元的网络型空间组织形式——城市网络。以“流动空间”视角构建网络模型近年来成为城市网络主题下研究的新范式。具有定位服务的互联网应用连续、稳定地记录其用户的出行轨迹为城市网络研究提供
大自然是万物的生长之源,从古至今自然都给予了人们无尽的智慧与向往。人类从自我意识觉醒之初便一直对大自然加以学习和模仿,随着社会的不断演变与发展,人们原有的生活方式也需要随着周遭的变化而做出改变。一些不可预知灾难的发生时刻警醒着人们,使大家逐渐意识到生态环境的重要性,人与自然在某种程度上来说是不可分割的。而理想化生态设计的延伸实质上也可以理解为仿生设计,它们都是对自然界的各种形式进行学习,对生命体及