基于深度学习的分子生成优化及其应用

来源 :中国科学院大学(中国科学院深圳先进技术研究院 | 被引量 : 0次 | 上传用户:minini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于疾病呈现多样化和复杂化的趋势以及药物耐药性频出等问题,导致药物的需求日益增加。小分子药物由于很多优势是目前药物研发的重点。对于小分子药物的研发,一种策略是从已经上市的药物中寻找具有新特性的药物。这种方法在一定程度上可以节约研发时间和成本,但是可能达不到预期的效果。所以针对某种疾病,生成新的小分子药物是另外一种重要的策略。例如,目前新冠疫情(COVID-19)持续在全球范围内大流行,其高传染性和致病性严重威胁人民的生命健康。除了研发疫苗外,我们迫切需要找到有效的药物来治疗该疾病。但是传统的新药研发往往面临投入高、耗时长等问题。近年来,由于深度学习在很多领域表现出十分优异的效果,研究者们尝试将深度学习引入到分子生成领域来提高新药研发的效率,并且取得了很多的成果。然而,其中还面临很多的挑战。例如,大部分针对特定靶标的生成模型主要关注已知的阳性分子,从而产生类似的分子。但是这些已知阳性分子的衍生物很可能是无效的。考虑到化学合成和实验验证的成本,生成分子的低假阳性率非常重要。此外,生成的分子通常需要满足多个性质才可能达到预期效果,多目标优化是分子生成的另外一个难点。多目标优化的数据往往更少,这可能会严重影响深度学习模型的性能。针对以上面临的两个问题,本文的主要研究内容如下:1.提出基于不平衡数据集的分子生成方法:首先提出了一个新的生成器-过滤器-预测器的生成模型架构。整个架构使用迁移学习来优化生成分子性质。为了降低生成分子的假阳性率,利用不平衡的数据训练预测器模型,使模型学习大量负样本的知识。由于预测器的性能对于生成分子的质量十分重要,并且为了缓解不平衡数据集对模型性能的影响,对预测器设计了预训练-微调两阶段式的训练过程。为了验证上述提出方法的有效性,收集相关的数据集,进行了抗新冠病毒分子生成的实验。2.提出基于多目标优化的分子生成方法:针对多目标优化可能存在的小样本问题,首先提出一种基于图注意力机制的多任务模型,该模型能够同时高效地建模分子的多个性质。然后利用该多任务模型作为预测器,基于强化学习和子结构拼接两种不同的方法训练多目标优化的分子生成模型。进一步地,利用上述方法,进行了抗新冠病毒分子生成的多目标优化实验,旨在同时优化生成分子的两个性质。
其他文献
目前我国的教育形势发生了很大的变化,以往以分数为主的应试教育观念已经不符合国家对人才培养的要求,在新的教育趋势下,我国更提倡培养全面型人才。因此,在这一时期,美术这些能够培养学生综合素质和审美意识的课程受到了相关部门的重视。为了使小学生能够更好地发展,学校增添了美术设计课程。虽然学生的创意实践素养在美术教学中取得了一定的成效,但是对学生创意实践素养的培养仍然需要不断探索。本文就小学美术教育中对学生
【目的】针对我国棉花种植科学布局及其应对气候变化的需求,利用物种分布模型方法,定量模拟玛纳斯河流域棉花的适宜分布及其对未来气候变化的可能响应,助于理解干旱区流域棉花种植的生态适宜性及其环境驱动机制。【方法】基于玛纳斯河流域61条棉花种植记录和R软件筛选的8个环境因子,整合GIS空间分析和MaxEnt模型,分析基准气候(1970—2000年)及2040时段(SSP245情景)流域棉花的适宜分布范围与
将分层教学引入小学数学教学,既可以提升教学的效率,又有助于推动学生实现个性化发展,非常契合“以人为本”教育理念的要求,可以促使更多学生萌生主动参与数学学习的兴趣。将分层教学融入小学数学教学需要采用一定的教学策略,使其有机渗透至教学的各个环节,同时教师还需要坚持动态调整、一视同仁、发展激励的原则,确保每一位学生都能在分层教学中获得一定的发展。文章在分析分层教学的内涵的基础上,探讨了在课前、课中、课后
【目的】研究棉花器官水平氮(Nitrogen, N)、磷(Phosphorus, P)化学计量特征及其异速关系,为实现棉花协调生长和资源高效利用奠定理论基础。【方法】选取13个棉花材料(8个陆地棉和5个海岛棉)为研究对象,在盛铃期测定不同器官(根、茎、叶和棉铃)的N和P含量,分析各器官N、P化学计量特征及N-P异速关系的差异。【结果】叶和棉铃的N、P含量显著高于茎和根;棉铃的氮磷质量比(N∶P)最
<正>县域城镇化已经成为实现乡村振兴的重要路径,也是推进新型城镇化的关键,对实现城乡经济社会一体化发展具有重要的战略意义。内蒙古受人口分布和其他因素的影响,县域城镇化具有自身的特点。本文通过对内蒙古县域城镇化现状进行分析,并对推进县域城镇化提出建议。本文所讨论的县域城镇化是指广义的县域城镇化,及全区范围内所有县级区域(包括旗、县、区、市)内所属的乡、镇的城镇化。一、内蒙古城镇化现状和城镇人口分布人
期刊
本文从学校体育数字化应用场景和模块功能设计上进行探讨。目的:推动学校体育信息化发展,探索学校体育数字化赋能体教融合的新模式和新机制。研究方法:文献资料、实地调查和访谈等方法。研究结果:实现以体育教学、运动训练和课外体育活动监测为基础,促进学校体育数字化、人工智能化、合作协同化、运动数据可视化,满足学生体育锻炼多层次和个性化需求。研究结论:通过大数据和"互联网+体育"实现了学校数字体育赋能体教融合应
国内外已有较多研究发现新型冠状病毒(简称新冠病毒)感染者存在长期症状,即COVID-19长期症状(long COVID-19),也被称为COVID-19后遗症(post-COVID-19 condition)。WHO将COVID-19长期症状定义为新冠病毒感染者在感染病毒3个月后所出现的、持续至少2个月,并且无法被其他诊断所解释的症状。COVID-19长期症状包括全身症状如疲劳、头痛及呼吸困难等,
国内农业种植领域在新兴技术的加持下得以逐渐向智能化方向发展,物联网技术的发展及其相关特征能满足农业种植智能化的绝大多数需求。基于此,该文通过分析传统农业的弊端,简单阐述物联网与农业生产的联系及目前主流的LoRa和NB-IoT 2种技术。进而提出一种基于物联网技术的智慧农业监测平台,将农业生产与物联网技术深度融合,充分利用其自动化、智能化和远程管理等特点解决传统农业的诸多痛点,做到科学化种植和统一化