基于图神经网络的分子分类算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:falconlingzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类的发展过程中,疾病始终与人类相伴随,威胁着人类健康。疾病不仅会影响人类的健康,甚至影响社会的稳定。因此针对特定疾病研发出对应的药物,减少疾病的不良影响是非常有意义的。分子的性质可以帮助我们研发出针对特定疾病的药物和设计出符合相应功能的分子。确定分子的各种性质是药物发现的关键步骤。计算机辅助药物设计技术被引入到分子性质的计算预测中,已成为生物信息学的主要研究方向之一。对分子进行分类,对于筛选特定疾病的候选药物是至关重要的。传统的机器学习算法可以对分子进行分类,但是分子不能直接作为机器学习模型的输入,需要进行大量的实验从分子中得到一系列的分子特性。这种手工制作的特征在一定程度上依赖于实验人员的经验。传统的特征提取策略通常是根据分子的三维结构进行计算,通过定量构效关系模型预测分子的性质,是一个非常耗时的过程。后来随着深度学习的兴起,研究人员受到卷积神经网络的启发,提出了图卷积神经网络,分子可以天然的视为一个图,可以直接作为图卷积网络模型的输入。图卷积神经网络直接从分子数据集中学习分子结构的表示,从而完成分子性质的预测。与传统机器学习算法相比,性能有了明显的改善。图神经网络模型的成功依赖于大量的标签数据,然而由于确定分子的特征是一件困难的事情,分子数据集规模比较小且存在大量未标记的数据。本文的主要工作如下:(1)针对上述问题,受自监督学习的启发,本文提出了一种融合了图对比学习的图神经网络模型,利用分子自己的结构特点学习节点特征。其中图神经网络用来学习分子图中节点的高级特征,然后运用图池化将节点的高级特征转化为图级特征,负责分子的性质预测。图对比神经网络采用自监督学习的方式,利用分子数据自身的信息来增强模型的泛化能力。两个任务连接在一起,共同进行训练。(2)为了验证所提出模型的有效性,本文首先使用我们的模型在BBBP和SIDER数据集上和其它方法进行性能比较。结果表明,在BBBP数据集上,本文模型的平均AUC值为0.916,相比最新的Trim Net模型提升了7.8%,也优于其它对比方法。在SIDER数据集上,本文模型的平均AUC值为0.688,比最新的Trim Net模型高了4.7%,也高于所有的对比方法。然后通过消融实验验证了模型各个模块的作用,实验结果表明在加入图对比学习任务后,模型的性能在各个指标上对比原来的模型都有一定的提升。本文还探究了不同的图神经网络层数对模型性能的影响,验证了模型在不同正负样本比例的数据集上的性能。针对Tox21数据集中正负样本不平衡的问题,我们采用focal loss函数替代原来的损失函数对原模型进行优化,优化后的模型的平均AUC值为0.861,超过了其它对比方法。最后,本文对分子性质分类的相关工作进行了总结,然后对未来的工作进行展望。
其他文献
随着人工智能的快速发展,机器视觉技术在我们的生活和生产中应用的越来越广泛。针对盲人因视觉受限,难以及时、准确地感知周围环境的问题,本文提出利用机器视觉技术获取距离、目标信息的方法来便捷盲人的日常生活。本文将双目测距技术与目标检测技术相结合,可快速、准确地检测出盲人前方的物体种类,并计算出物体与盲人之间的距离。具体研究内容如下:一、研究相机成像原理及标定方法。首先确定了相机成像模型中的四个重要坐标系
学位
目的:对比择期腹腔镜全子宫切除术患者应用羟考酮或舒芬太尼超前镇痛的效果。方法:选取吉林大学中日联谊医院2021年择期全麻下行腹腔镜全子宫切除术的患者60例,将60例患者随机分为羟考酮组(O组)、舒芬太尼组(S组),每组30例,术前评估患者情况。两组患者年龄30-60岁,体重指数(BMI)20-30kg/㎡,ASA分级I~II级,疼痛敏感性量表评分4-6分,手术时间、术中失血和病情等基本资料相仿。两
学位
背景:胶质母细胞瘤是神经系统最常见的高度恶性胶质瘤,预后不良,经肿瘤手术、放疗、化疗等综合治疗后,平均生存时间仅为18个月,肿瘤的复发、耐药均是预后不良的主要原因,多药物、多治疗方案联合应用的管理方法可能成为延长胶质母细胞瘤患者生存期的有效手段。脂肪抑制素最早作为甾醇调节原件结合蛋白(SREBPs)的特异性抑制剂应用于研究代谢综合征,后被发现可通过依赖或不依赖SREBPs的途径抑制多种肿瘤。不依赖
学位
我国地域辽阔,文化发展繁荣昌盛,独特的非物质文化遗产种类繁多。凤阳花鼓非遗文化在滁州旅游文化产业中,传承发展至今日,承载着人类的生活印记,是历史留给人们的宝贵财富,为设计文创产品提供了良好的客观条件及基础。本文开展凤阳花鼓视觉元素文创产品及包装设计的研究,探析文化创意产品及包装的开发设计实践。逐一概述凤阳花鼓非遗文化特色及形成原因,并详细介绍了凤阳花鼓非遗文化起源萌芽及发展融合,为凤阳花鼓非遗文化
学位
背景及目的:胰十二指肠切除术(pancreaticoduodenectomy,PD)是在1935年由名叫Whipple的一名美国外科医生首先用来治疗壶腹周围癌的手术,因此又被称为Whipple手术。Whipple手术是治疗壶腹周围恶性肿瘤、癌前病变和部分良性疾病的标准术式,手术的操作相对来说很复杂,对病人机体的伤害比较大,并且术后可能出现的并发症比较多。微创外科蓬勃发展,腹腔镜下开展的PD在国际上
学位
随着人机交互技术的进步和社会经济的发展,智能机器人在我们的日常生活中发挥着越来越重要的作用。其中可直接与人互动交流、服务于人类的语音机器人,更是走进了千家万户,它们被广泛应用于智能家居、智慧交通和智慧医疗等领域。对于一些特定的应用场景,比如家庭陪伴,要求语音机器人外观小巧精致,体积不能过大,还得具备一定的负重能力,保证机身内部能容纳下电机和电池等必要零件。由于机器人的外形壳体是内部空间的反映,在容
学位
随着移动互联网的快速发展,众多自媒体APP喷涌而出,大大丰富了人们的生活,但与此同时也积累了海量的文本信息。自动文本摘要技术能从繁杂的文本中提取出主旨信息,过滤无关内容,提升人们的工作效率。目前,序列到序列(Seq2Seq)模型成为自动文本摘要技术中的主流研究方向之一。Seq2Seq模型由编码器和解码器两部分所构成,它能够灵活地处理输入输出数据,应用非常广泛。虽然Seq2Seq模型在文本摘要领域中
学位
点击率预估是推荐系统和在线广告平台中一个关键的环节。作为直接影响公司营收、提升用户体验的关键技术,点击率预测问题一直是工业界和学术界研究的重点。近年来,人工智能技术在搜索引擎及视觉语音等众多领域中取得了突破性进展,各研究机构和互联网企业纷纷将相关技术应用于点击率预估问题,取得了许多出众的成果。本文通过分析经典点击率预估模型的结构特征和应用场景,发现在点击率预估问题中,主要存在两点挑战:其一,预估模
学位
长链非编码RNA(long non-coding RNA,lncRNAs)是人体中非常重要的一类非编码RNA,它的长度超过200个核苷酸,在非编码RNA中占有极大的比例。近年来,越来越多的研究表明lncRNA参与众多的生物调控过程,基因调控的各个环节发挥了至关重要的作用。例如细胞的分裂分化、疾病的病理特征、免疫反应、细胞的代谢等等,与很多疾病的发生密切相关。目前lncRNA已经成为一些疾病诊断与治
学位
近些年来,随着大数据等信息技术的发展,泛在感知数据和图形处理器等计算平台的完善,人工智能技术的发展得以急速推进。人工智能是计算机科学的一个分支,它企图生产出一种和人一样思考并能做出反应的智能机器。人格是一个人的情感,行为及其动机和其思想模式等特征的结合,它表明个人的偏好,影响着个人的决定。因此针对人格的自动化检测可以视为对人的意识、思维等信息进行模拟,在社交文本挖掘中具有重要意义,并已经逐渐成为人
学位