基于分层子结构嵌入的分子自编码器及分子生成

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前新药研发需求日益增加,业界迫切需要一种智能发现潜在药物,代替人工实验的药物发现方式。利用人工智能相关技术辅助分子设计是药物研发领域的热点之一,如何利用人工智能结合计算机强大的算力辅助人类专家进行新兴药物分子的结构设计和属性分析成为当前药物研发领域的重要课题。近年来,一些深度生成模型被提出,使得利用深度学习方法自动发现和生成所需药物分子成为可能。这对推进药物开发进程,缩短药物研发周期,降低研发成本有着重要的意义。变分自编码器是一类重要的深度生成模型,在数据生成领域有着广泛的应用,是近年来无监督学习领域最具活力的研究方法之一。在变分自编码器的理论基础上,本文提出了一种基于分层子结构嵌入的分子编码方式,并且可以用于分子生成。本文主要研究如何获取不同粒度的分子表示,并对不同粒度的分子表示进行编码以获得不同层面嵌入,并将这些嵌入进行融合从而更好的分子编码形式,同时可指导分子的生成。主要的工作包括选取合适的分子数据集,设计合理的子结构提取算法获取分子粗粒度的表示形式,设计与子结构提取算法相适应的子结构拼接算法实现粗粒度分子表示到分子的还原,提出了作用于分子粗细粒度表示的分子自编码器框架,用于分子的编码和解码。本文的模型部分主要包括针对分子图和子结构连接图的图编码器网络和分子生成网络。其中图编码器网络能够获取分子粗细两种粒度下的嵌入向量并融合为定长向量,可以为当前模型或其他分子相关任务提供有意义的分子表示。分子生成网络能够利用当前模型背景下的分子嵌入表示生成对应的分子,具有药物发现的能力。本文选取了合适的参数对模型进行训练,设计有关了实验测试模型的性能。实验结果表明,本模型在获取分子嵌入和分子生成等任务中的表现良好,符合设计预期。
其他文献
随着人工智能时代的到来,机器学习应用的领域越来越广泛。伴随着数据处在爆炸的时代,机器学习在训练数据规模和计算等问题上正面临诸多严峻的挑战。比如,现有的数据管理技术无法直接为机器学习数据提供智能的存储,现有数据选择方法不能很好地满足机器学习样本数据的概要提取需求,目前尚无高效的连接顺序选择算法等。为了推动数据库内机器学习的发展,使智能数据管理技术赋能机器学习,本文研究了支撑数据库内机器学习的关键智能
学位
随着互联网的蓬勃发展,视频资源日渐丰富,公共场所的监控摄像头越来越多,网络视频的流量飞速增长,信息传播速度进一步加快,导致视频信息的安全性问题逐渐暴露出来,因此基于视频的暴力行为识别越来越受到关注,而从视频中自动识别犯罪场景变得至关重要且具有挑战性。目前,在暴力行为识别任务上,主流的方法是基于深度学习的,但普遍会存在两个问题,(1)目前很多深度学习网络模型都是基于C3D网络结构作为骨干网络进行识别
学位
改革开放以来,我国经济增长突飞猛进,各项事业取得了显著成就,但是消耗资源、消耗人力的粗放式发展也带来许多弊端,我国人口、资源、环境的矛盾越来越突出,可持续发展的压力越来越大,产业结构不合理、资源浪费严重,因此必须转变依托要素驱动的经济发展方式,走创新驱动的新路,科技创新才是经济发展的不竭动力。从国内看,推进科技创新是形势所迫,但从国际范围看,创新驱动已是大势所趋。近年来,我国也在不断鼓励大众创业、
学位
随着软件产品的广泛应用,软件缺陷也随之增多,其中包含的安全漏洞如果不被尽早修复,会被恶意攻击者利用攻击系统造成安全风险,因此出现了利用机器学习的方法来帮助安全专家在缺陷追踪管理系统中检测安全缺陷报告。但是近年来,随着对抗样本概念的提出,在原有数据上添加微小扰动便能降低原始分类模型的准确率,暴露了机器学习模型本身存在的脆弱性。针对以上问题,本文对安全缺陷报告检测模型进行了对抗攻击方法的研究,具体工作
学位
短视频时代,戏曲等传统文化的传承问题值得关注。短视频传播是传播秩序重建的重要环节,有助于中华优秀传统文化内核深植于人类交往的精神世界。2018年,戏曲与短视频的联姻实现了传统文化现代化、数字化的传承与传播。在短视频强大传播能力的加持之下,戏曲逐渐表现出新的生命力。豫剧作为河南地区传统文化的代表,作为全国最大的地方戏,其在与短视频结合的过程中,展现出了超前的时代敏感性和接纳能力。相较于传统的豫剧传播
学位
在小天体探测任务过程中,小天体的三维模型对探测器的着陆、导航等任务起到至关重要的作用。在探测器处于接近阶段且距离小天体几十千米时,通过窄视角相机拍摄的观测图像只包含小天体轮廓信息,无法得到小天体表面清晰的纹理细节。本文提出了一种基于轮廓的小天体三维建模方法,能够生成低分辨率的小天体三维模型,可为后续的小天体高精度建模任务和着陆导航任务提供初值。本文主要从以下两个方面进行展开研究,一是在不考虑相机外
学位
目前,深度学习广泛用于各领域并取得了优异表现,但是这往往需要大量标注数据的支持。大量标注数据的获取意味着高昂的成本与苛刻的应用条件。因此,随着深度学习的发展,如何在实际场景下突破数据限制,成为目前重要的研究目标,而半监督学习正是其中一大研究方向,它通过利用大量的未标记数据辅助少量的标记数据进行学习,很好地减轻了深度学习的数据需求压力。伪标签生成方法是当前半监督学习的重要组成部分。所生成的伪标签质量
学位
人类的思想活动不能脱离当时的媒介技术的记录、传递和储存。如同德布雷所阐释的,媒介学的中心是发现技术与文化的互动结构,考察一个社会结构和社会关系如何一般意义上和影响传递的技术结构进行互动。观念、话语和精神通过媒介化而获得实体。每个时代的传媒方式的主旨就是对其时代进行定义或制造信任。因此,媒介不只在传递信息上迅捷有利,更起到了开民智、纾民困的思想启蒙作用。以马克思主义传入中国的历程为例,其有效传播需要
学位
新闻漫画实现了个体与社会的互动连接,是一种独特的新闻报道形式。微博作为新闻漫画的传播载体之一提供了受众与传播者情境互动的平台。媒介技术的发展让信息的传收突破了时空的界限,微博为用户搭建了接收信息、表达民意的公共空间,以微博为代表的社交媒体重塑了信息的传播结构,带来了信息传播权力的转移,同时也为党的宣传工作带来了挑战。如何加强网络舆论引导、建设清朗网络环境,确保网络信息的传播秩序和国家安全、社会稳定
学位
近些年,心肺疾病严重影响着人们的身体健康。电子计算机断层扫描技术作为一种无创的医学图像检查技术,能够显示出胸腔内部的心肺器官,以此作为诊疗的依据。但由于影像以二维形式呈现,医生在观察时只能通过想象在脑海中重建出器官的三维结构,存在一定主观性与不确定性。依靠计算机技术重建出心肺各个器官的三维模型,最终呈现出一个更加直观的可视化结果,可用于病情诊断、手术规划、医患沟通等。本文研究了一套完整的心肺器官三
学位