基于子结构序列与拓扑图的分子性质预测

来源 :天津大学 | 被引量 : 0次 | 上传用户:yy692451568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分子的性质预测任务,即根据分子的结构和组成预测出它的诸如水溶性、毒性等各项自身理化性质的任务,被广泛运用于药物发现、新材料研发等领域。近年来,机器学习方法越来越多地被用于分子性质预测任务,大大降低后期工艺失败的负荷,节省大量的资源和时间。然而现有模型一方面忽略了分子子结构的空间位置信息,难以区分结构很相似的子结构,另一方面,由于现实的分子无论空间上如何旋转,分子本身构象如何不同但若是原子间作用不发生改变的情况下分子性质依然不会改变,但现有的基于图模型的分子性质预测中却没有关注这一问题。因此,亟需一种对于分子特征有更强表征能力兼具鲁棒性的模型方法。针对难以区分结构很相似的子结构在不同空间坐标位置上表征的问题,本文设计并实现了一个基于子结构序列空间位置信息编码的嵌入分子性质预测模型。首先,从分子的功能性出发对切分好的分子子结构组成的序列建模,从若干个原子组成的子结构能最大程度上反应分子的化学性质;其次,加入了子结构的空间信息,来获取结构很相似的子结构在不同空间坐标位置上的独特表征,从而增强模型区分不同位置的子结构细微差别的能力。最后在七个关于回归和分类任务的数据集上进行了实验,结果表明在其中6个数据集上表现均优于其他方法,在分子亲脂性指标上最多提升4%,实验结果表明该方法优于其他方法。针对分子如果旋转模型预测性质有可能发生改变的问题,为增强序列模型的鲁棒性,本文融合了一个加入原子层级原子本身性质、原子间化学键性质以及化学键之间的角度的一个图神经网络模型,其中,对于表示原子间方向的化学键键角引进了球面的Fourier-Bessel函数保证输入的原始分子不管如何旋转结果都不发生改变,从而在多个层级上获得更好的表征。在三个关于分子性质的回归任务数据集上进行实验,全部优于现有方法,并进行了消融实验,证明了方法的有效性。
其他文献
社交平台对现实世界的影响力在不断提升,2016年美国大选期间剑桥分析公司通过对Twitter用户的分析,针对用户精准地推送不同话题的政治广告和新闻,成功地提高了民众对特朗普的支持率。因此,通过对社交平台话题演化进行分析从而进行舆论引导是有意义的。当前话题演化的研究大都针对新闻报道等文本信息,忽视了社交平台文本信息占比少用户行为信息占比高的特点。针对这个问题,本文先对数字舆论场进行了设计,然后通过融
学位
随着自然语言处理领域的发展,Transformer语言模型已经被广泛应用于各种自然语言处理任务中。Transformer中使用了一种特殊的注意力机制的结构,被称为多头注意力机制。其目的是为了使的不同的头提取到不同的子空间信息,但是Transformer中没有设计任何结构去保证多头注意力机制可以有效的工作。研究也表明,在很多时候Transformer的多头机制并没有发挥作用,为了解决这个问题,本文提
学位
近些年来,表征学习已成为机器学习社区的研究重点,大规模预训练神经网络已成为实现通用智能的第一步,神经网络取得成功的关键在于其对数据的抽象表征能力,深度学习中的若干学习领域实际上都在讨论怎么学习表征,本文不纠结于若干相近领域的若干相似概念,以表征学习作为统一的视角来讨论学习表征的问题。本文从问题出发,聚焦于求解该领域的两个问题:如何在多种任务下对表征学习问题进行统一建模,如何对神经网络模型中学得的表
学位
基于骨架序列的人体动作识别在计算机视觉领域占有重要地位。近年来,基于深度学习实现的识别方法很好的提高了识别精度。本文的多粒度动作识别包括粗粒度动作识别和细粒度动作识别。当前基于骨架序列的动作识别方法中,针对粗粒度的动作识别,在面对低质量骨架数据的情况下,无法很好的识别低质量骨架序列中包含前文动作和无关冗余干扰信息的情况;针对细粒度的动作识别中模型的观测窗口中出现影响当前帧动作判断的干扰冗余信息时造
学位
目的 优化系统,打通反馈路径,从多方面优化处方点评流程,为医疗机构点评工作从业人员提供参考。方法 成立处方点评专职组、制定培养机制,调研并重构抽样方法,增加点评软件线上反馈程序,联合多部门进行协作监管。回顾性分析医师线上回复变化,对比优化前(2021年1-4月)与优化后(2021年5-8月)处方医嘱点评数量、覆盖率和合理率等指标。结果 从实施线上反馈开始,医师回复率由10.12%增至40.05%。
期刊
针对冷轧罩退产品板面黑斑缺陷的形成机理,分析各种成因,提出了减少黑斑缺陷应采取的措施,对同类机组的质量控制有指导意义。
会议
随着互联网以及深度学习技术的快速发展,数据驱动模型越来越流行。当前,对于电商领域的对话系统,研究者往往聚焦于其内的对话数据。虽然此种方式能够解决对话系统中用户的高频问题,但是针对某些长尾型问题通常缺乏泛化以及语义理解能力,并且会导致对话系统生成的答复缺乏流畅性和多样性。BERT预训练语言模型在自然语言理解任务中展现出了先进的泛化和语义理解能力。但是,由于BERT模型双向编码的特点,导致在答复生成任
学位
为有效缓解某电厂660 MW机组前后墙对冲燃烧锅炉两侧墙水冷壁高温腐蚀及煤粉颗粒冲刷磨损问题,结合高温腐蚀的原因及机理,并根据现场设备情况,提出将靠近两侧墙的旋流燃烧器角度向炉内中心偏转3.5°。对燃烧器偏转前后的锅炉燃烧进行数值模拟,对比分析了燃烧器角度偏转前后的温度场、速度场、浓度场以及颗粒轨迹的变化,并将方案进行了工程应用。数值模拟和工程应用结果表明:燃烧器角度偏转后,炉内气流向炉膛中心集中
期刊
骨质疏松症是由于多种原因导致的骨密度和骨质量下降,骨微结构破坏,造成骨脆性增加,从而容易发生骨折的全身性骨病。该病症近些年来在以百万的数目逐年增加。医学上用来诊断该病症的辅助手段一般为CT、MRI等医学影像技术,这类技术通常会从不同角度对识别对象进行多方位断层切片成像,因此具有三维空间结构信息。而目前大多数的医学图像分析都局限在二维的检测方式,一定程度上摒弃了空间信息,极有可能出现判断的偏差。本文
学位
视觉问答任务是目前机器学习领域中较为热门的一个研究方向。在视觉问答中,研究人员采用注意力机制或者单个图神经网络来建模图片中物体的属性及其关系,从而引入推理信息。除此以外,研究人员为了在模型训练过程中引入多种推理信息,构建了多个图神经网络。然而随着更加复杂的视觉问答数据集的提出,数据集中的图片存在大量物体及其属性,问题呈现出组合式语言,同时图片中的物体与物体之间存在纷繁复杂的关系。因此,如何从具有众
学位