用于分子属性预测的多任务机器学习模型研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:woniu5566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来机器学习算法已在材料计算领域得到了广泛的应用,为材料性质研究与新材料设计提供了全新的计算范式。其中,分子材料的属性预测作为该交叉领域的核心问题之一获得了高度的关注,大量工作利用图神经网络等机器学习模型在诸多分子属性上实现了高精度的预测。对于多种多样的分子属性,机器学习领域的多任务学习方法可以提供更加精确高效的预测模型。多任务学习旨在同时学习多个相关的分子属性,通过挖掘分子属性间关系来提升预测精度,同时降低训练所需的计算量,但该方法在分子属性预测上的应用目前相对较少。本文对于多任务学习方法在分子属性预测问题上的应用进行了探究。具体内容如下:(1)本文提出了一个适用于分子属性预测问题的多任务学习框架。该框架以硬参数共享模型为基础结构,采用损失函数加权方法实现多目标优化的平衡,可以利用更少的计算成本实现更优的多目标同时预测效果。该通用框架可以适用于多类基准模型结构以及多种损失函数加权方法,可以针对新模型与新方法进行快速调整。(2)本文对于目标数据集内的分子属性间关系进行了分析,并通过在不同属性集上的同类模型训练效果说明了分子属性间关系对多任务学习模型效果有重要影响。同时,本文采用的硬参数共享模型可以为复杂关系的共同学习提供更灵活的模型参数调整,从而有更好的预测表现。(3)在通用的多任务学习框架基础上,进一步的实验对比了多类损失函数加权方法在平衡多目标优化方面的表现。应用不确定度加权方法的硬参数共享模型在学习复杂模型时预测精度得到了显著的提升,同时这种加权方法几乎不会带来额外的计算成本。(4)使用不同数据量训练的同类模型的预测效果显示了多任务学习模型在训练数据较少时更具优势。同时,多任务模型在学习复杂属性集时可以以更低的计算成本实现与单任务基准相同或更优异的预测。
其他文献
近年来,由超薄人工亚波长结构制成的超表面具有电磁波操纵能力强、体积小等优点,因此超表面光学器件被认为是下一代光学元件。光子纳米筛作为振幅型超表面,通常以透射模式实现光学超聚焦、显示和全息术,但具有亚波长尺寸的光子筛与入射场的耦合作用弱,由此限制器件的光学透射率,从而导致整体效率低下。为解决该问题,我们提出具有超构反射镜的反射型光子纳米筛,实验证明了该纳米筛全息图的总效率比其对应的透射型光子纳米筛高
学位
随着AI技术的迅速发展,深度伪造技术(简称“深伪”)也随之日渐成熟,引起了社会的广泛关注,其恶意应用也给社会带来了大量的潜在威胁,如虚假新闻人脸合成、明星污名化等。目前网络空间中充斥着大量与个人、企业乃至政治、军事相关的深度伪造视频内容,对个人隐私、社会稳定、政治安全等方面构成了巨大的威胁。主流的深伪检测技术是基于深度神经网络训练分类器进行真伪判别。但是这些方法的检测准确率依然难以满足应用需求。提
学位
锌-空气电池由于高达4400 Wh/L的理论体积能量密度和低成本、安全无污染的优势,近年了受到了重点关注与发展。但是,可充电的二次锌-空气电池仍面临诸多问题亟待解决。一方面,在碱性电解液中,锌金属负极由于溶解、钝化、枝晶等问题导致电化学可逆性较差,降低了锌-空气电池的工作寿命。另一方面,空气正极上氧还原反应(ORR)和氧析出反应(OER)的动力学过程缓慢,拉低了二次锌-空气电池的输出功率和能量转换
学位
自1998年以来,历经二十多年的不断发展,基金已成为我国金融体系的重要组成部分。目前,我国基金产业正由高速发展时期步入成熟时期,激烈的业内竞争和各种发展障碍也应运而生。我国基金业整体面临着产品同质化严重、替代产品不断出现、渠道维护费用增加等实际问题,其中的中小型基金公司,甚至出现因为品牌知名度不高、产品线不齐导致的营销工作停滞。作为典型的业绩驱动和营销驱动并驾齐驱的行业,营销对基金公司的营收和创利
学位
教育是百年大计,在当今这个知识经济时代,教育对个人的发展、家庭的兴旺乃至社会进步都起着不容忽视的作用。而家庭作为最基础的社会单位,在教育投资中不可或缺。从我国实施九年义务教育政策开始,教育投资不仅占财政支出的比重在不断提高,占家庭总支出的比重亦是如此。但是,教育投资的城乡差异化显著,其中农村家庭的教育投资明显不足。如今,如何加大农村家庭教育投资、缩小城乡教育投资差距、促进教育公平成为社会普遍关注的
学位
数字隐写将秘密信息嵌入数字媒体(如图像、音频等)中进行隐蔽通信。多年来,数字隐写不仅聚焦于嵌入方法的改进,也关注载体选择的扩展。随着神经网络的发展,越来越多的开发者投身于神经网络的开发与研究,并在互联网中分享自己训练的网络模型。因此,神经网络模型已成为一种在互联网中广泛传播的新型数字媒介,也成为一种新的隐写载体。目前已有多种以神经网络为载体的隐写算法被提出,且有研究者利用隐写算法将恶意代码嵌入神经
学位
近年来,国内网络通信技术迅猛发展,创新型企业不断涌现,出现了像网络直播平台这样以新型交互方式为特色的娱乐产业。随着网络直播用户数量的不断增长、直播市场规模的不断扩大,一些头部企业为了谋求进一步发展选择在国内外进行上市。对直播平台的审计需求随着其经济影响的扩大而逐渐上升。查找和整理现有的文献后发现,当前对于网络直播平台审计风险的研究较为有限,针对直播行业的审计理论体系尚未建立,审计人员也缺乏直播平台
学位
脑卒中正成为老年人的一种非常常见且危害很大的疾病。已有临床试验表明,及时和适当的康复训练能够增强患者的运动功能,促进患者康复。传统的康复训练与评估以职业医师辅助为主,不仅评估过程耗时,而且评估结果准确性受医师主观影响大。康复机器人这种新兴技术的出现为脑卒中患者的康复训练和运动评估提供了新的解决方案。本研究的目标是开发一种低成本、结构简单的上肢康复机器人,并通过基于机器学习算法的康复评估模型实现脑卒
学位
电催化反应广泛存在于CO2还原、析氢反应、甲醇氧化等诸多和能源相关的反应过程当中。从广义上讲,电催化是对电极反应的研究,其动力学强烈依赖于电化学界面的物理化学性质,包括电极材料的性质和电极表面的双层结构。通过使用电解质效应或所谓的“电解质工程”来改变电化学界面提供了一种调节电化学响应的通用方法。对存在于众多电催化与电合成反应中的质子耦合电子转移(Proton coupled electron tr
学位
近年来,文本生成图像已成为计算机视觉领域的重要研究方向之一,它旨在理解文本的语义信息并生成相关的图像,不仅能够帮助扩充虚假图像检测的数据集,还能配合文本为网络舆情分析提供支撑。传统的文本生成图像方法希望能够建模实现文本特征到图像特征的直接映射,但是因为二者跨度较大效果不好,直到生成对抗网络(GAN)被应用于这个领域,文本生成图像的效果得到了显著提升,但是仍存在很多问题。例如,经典方法采用多个生成器
学位