基于深度学习的单步逆合成反应预测方法研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:scratch2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有机合成规划对药物研发具有重要意义,其中逆合成预测不仅能够降低药物的制造成本,而且能够有效解决一些天然药物分子生产途径单一和量产困难的问题。作为逆合成预测的基础,单步逆合成预测受前期技术水平的限制,一直很难有太大突破,尤其是基于规则和模板的预测方法,耗时费力且难以扩展。但是随着深度学习的发展以及化学反应数据的积累,单步逆合成反应预测任务被赋予了新的生机。本文围绕单步逆合成预测任务,做出以下研究:(1)为了克服基于规则和模板方法的局限性,解决现存的预测准确率低、输出无效分子率高的问题,本文提出了一个无模板的单步逆合成预测模型Trans Retro,模型由词嵌入模块、相对位置编码模块、预测模块和修正模块组成,并引入优化的束搜索算法。实验结果验证了各部分对模型的积极作用,最终模型的Top-1预测准确率在通用数据集上达到了54.6%,预测分子有效率达到了97.8%。(2)为了克服基于字符的数据分词方法在逆合成预测任务中缺乏严谨性的问题,本文通过分析反应数据,划分原子最小单元对数据进行处理,使得反应数据可保留一定的化学信息,让模型能够进一步学到其中的语法知识,提升预测性能;另外不同于该任务常使用的单一评价指标,本文使用多标准的评价方法对模型进行评估,使其评估更为全面。(3)为了解决小规模化学反应数据集由于样本数量不足而导致的预测准确率低的问题,本文将迁移学习方法与Trans Retro结合,提出单步逆合成预测迁移增强模型T-Trans Retro,并设计了两种数据增强策略,分别为顺序增强和倍数增强策略。使用数据量大小为480K和50K的反应数据集进行实验,实验结果表明,该模型能够有效缓解数据量小对模型预测性能的消极影响,Top-1预测准确率达到了66.1%。
其他文献
NiTi形状记忆合金因其生物兼容性、耐腐蚀性、超弹性和形状记忆效应等性质,在航空航天、生命医疗、民生民用等领域中被广泛应用。金属玻璃(非晶金属)NiTi,具有较高的硬度,但其内部非弹性形变造成的损伤主要集中在晶格局部,使其最大弹性应变通常低于2%,已知的大部分金属玻璃材料几乎不具备弹性应变,因此,提高其超弹性并保存原有的硬度具有重要的意义。在非晶-纳米晶NiTi形状记忆合金中,纳米晶的马氏体相变自
学位
科学评价区域协同创新能力对于提升区域创新发展水平至关重要。从区域知识获取能力、区域知识创造能力、区域环境支撑能力以及区域创新资源配置能力4个子系统构建相关指标体系,运用熵值法和耦合协同度模型测量评价泰州市区域协同创新能力。结果显示:泰州市区域协同创新能力稳步提升,正从中级协调逐渐上升至良好协调。区域环境创新支撑能力进步明显,区域知识创造能力缓慢增长,而区域知识获取能力、区域创新资源协同配置能力是进
期刊
目的:EMT在膀胱纤维化过程中可能发挥重要作用。本研究通过膀胱灌注LPS构建炎性膀胱纤维化大鼠模型探讨EMT和膀胱纤维化的关系,同时利用LPS构建膀胱上皮细胞EMT体外模型并探讨TGF-β信号通路对EMT的调控作用。方法:1.体内实验:选取18只雌性SD大鼠,随机分为LPS组、PBS组和对照组三组。对照组除正常饲喂外不做其他处理。对LPS组和PBS组分别进行膀胱灌注LPS溶液(500μg/500μ
学位
湖泊水体提取不仅是遥感空间地理分析的关键技术,也在灾害监测、资源利用和碳循环等方面具有重要意义。由于地壳的运动,青藏高原上湖泊的面积一直在不断变化,这也使青藏高原区域的水体提取变得非常重要。受近年来计算机视觉研究的启发,用于遥感图像分析任务的卷积神经网络不断地被提出,但分割边界模糊和对前景建模能力较差等问题仍存在。因此,本文的工作将围绕如何改进以上问题进行展开,具体内容如下:(1)构建了两个用于水
学位
目的系统评价早产儿预防性使用重组人促红细胞生成素对预防坏死性小肠结肠炎的有效性及安全性。方法检索包括Pub Med、Embase、Cochrane Library、万方、CNKI、CBM在内的数据库,搜集自建库以来至2021年12月早产儿预防性使用重组人促红细胞生成素(rh EPO)的随机对照试验。由两名研究者分别进行文献筛选、信息提取及纳入研究的质量评价,所纳入研究数据采用Review Mana
学位
研究目的癫痫是儿童神经系统常见病之一,其病因复杂,人们提出了离子通道学说、神经递质学说、遗传学说、免疫学说等多种学说,其中免疫学说是研究的热点之一。因此,本研究的目的为:1.探讨难治性癫痫患儿淋巴细胞亚群的分布差异,分析淋巴细胞亚群的临床价值。2.探讨癫痫患儿脑电图(EEG)的异常程度与淋巴细胞亚群的相关性。3.探讨不同抗癫痫药物(AEDs)对癫痫患儿淋巴细胞亚群的影响。研究方法第一部分:选取70
学位
目的:制备DES致小鼠隐睾模型,外加铁死亡抑制剂干预,探究铁死亡在DES致隐睾病理生理中的表现和作用。方法:利用生物信息对隐睾、DES、铁死亡共同的靶点进行预测分析;将KM小鼠随机分为:正常组;DMSO溶剂组;实验组:5.0ug/kg/d、25.0ug/kg/d DES实验组1、2;2.5umol/kg/d Fer-1(铁死亡抑制剂)实验组3;Fer-1+5.0ug、Fer-1+25.0 ug D
学位
目的:基于CiteSpace可视化软件分析了解国内近5年慢性肾衰竭护理研究现状及进展。方法:检索中国知网(CNKI)、万方数据库、维普数据库中慢性肾衰竭护理相关的文献,时间限定为2017年1月—2021年12月,利用CiteSpace V.7.R2可视化软件对检索结果中的发文作者、研究机构及文献关键词进行分析,生成可视化的共现图谱。结果:纳入符合要求的文献共727篇。可视化图谱显示:共纳入153名
期刊
报纸
高光谱图像有着波段数量多和光谱分辨率高的特点,相较于一般图像,高光谱图像更能反映成像事物的特征.目前高光谱图像已经在地质勘测、资源勘探、环境保护、军事和农业等诸多领域有着广泛的应用.高光谱图像分类是高光谱图像研究领域的一个重要研究方向,如何解决高光谱图像分类中面临的各种问题,例如:神经网络训练中最常见的少样本问题,研究出一个既有着良好泛化性同时分类效果好的分类方法是研究者们一直以来努力的目标.传统
学位