基于图神经网络的化合物生物降解性研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xiaoxu0911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
很多日用化工产品,如塑料、橡胶等,在自然条件下很难降解,对生态系统造成了诸多危害。而生物可降解化合物可以被自然环境中的微生物有效降解,不会对生态环境造成太大的影响。因此,各个国家都在努力开发生物可降解化合物去替代传统的难降解化合物。但是,使用生物实验的方法去判断化合物是否可生物降解需要花费大量的时间。为了加速对化合物生物降解性的检测,使用数学模型来预测化合物的生物降解性可极大地缩短检测时间。目前,大部分使用传统机器学习和深度学习的化合物生物降解性研究中,都是将人工构建的分子指纹输入到模型中。然而,此类型的分子指纹的元素值稀疏,并且难以描述化合物分子的整体结构。考虑到化合物具有复杂的图结构属性,图神经网络能够有效建模该类型的数据,对预测任务有很大的帮助。因此,本研究利用图神经网络技术训练了一个预测化合物生物降解性的模型,实现了快速且精准地预测化合物的生物降解性,并且使用训练好的模型搭建了一个化合物生物降解性在线预测WEB平台,提供对化合物生物降解性的在线预测,具体内容如下:首先,为了适应图神经网络的输入,化合物的SMILE表达式被转成分子图形式,使用邻接矩阵来表示分子图的结构,并且使用多种原子属性来构建分子图的节点特征向量。然后,基于图神经网络的神经消息传递,设计了化合物生物降解性模型,主要由多个图神经网络层构成。每一层的神经消息传递都将捕获到化合物分子图的空间结构信息融入到节点特征中,且生成分子图的图表征。接着双向长短时间记忆网络利用所有图表征生成分子指纹,再通过输出层映射到化合物生物降解性的类别空间中,以此来判断化合物的生物降解性。最后,在公开的化合物训练数据集上,本研究使用5折交叉验证训练出了5个模型,并使用多种指标在公开的测试集和额外的验证集上计算出最优的模型。最优模型在测试数据集和外部验证数据集上的准确率分别为0.89和0.88,特异度分别为0.96和0.95,灵敏度分别为0.90和0.85,受试者操作曲线的面积分别为0.95和0.91。结果对比证明,该模型在这些指标上都优于文献已报导的模型。在已报导的关于预测化合物生物降解性文献中,大部分研究仅仅停留在检验模型的性能,并未将模型进行实际的应用。为加快对化合物生物降解性的研究,本研究设计了化合物生物降解性在线预测WEB平台。该平台前端部分提供研究人员三种化合物数据提交方式,后端部分部署了已经训练好的模型,接收化合物数据并将预测结果返回给研究人员。该平台为研究人员预测化合物的生物降解性提供了很多便利。
其他文献
现代医学越来越提倡疾病的早期诊断,早期诊断和治疗可以显著提升各种疾病的治愈率。共聚焦内窥镜成像技术不仅具有亚细胞分辨率,而且具有良好的对比度,是早期诊断内镜技术研究的热点。结肠隐窝对结肠病变及高癌变潜能肿瘤有预示作用,对隐窝结构的分割是进行智能辅助诊断和其他图像处理任务的基础工作。由于共聚焦内窥镜设备并未有效普及和相关数据集的缺乏,共聚焦内窥镜中结肠隐窝分割主要面临三个问题——隐窝结构难以被准确区
学位
生物酶催化因其高特异性、环境友好性等优势,被认为是生命健康、资源、环境等领域的绿色催化方法。固定化酶可解决游离酶稳定性差、难回收等问题。传统的物理化学固定化技术存在工艺复杂、酶与载体兼容性差等制约因素,胞内酶全细胞催化技术存在底物与产物的传质限制等缺点,传统表面展示全细胞催化技术存在酶展示量低等问题。以解决上述问题为导向的新型高效固定化酶技术的研发成为生物催化领域的热点之一。受大肠杆菌(Esche
学位
哺乳动物大脑通过复杂的神经连接整合外界信息。脑干中控制口面部运动的核团,在进食、呼吸和发音等复杂且需高度协调的运动中发挥重要作用,已有研究探索了这些核团内神经元组成和功能,但对于不同核团内的神经元环路的组织规律,特别是单神经元水平的结构尚不清楚。本研究结合嗜神经病毒和荧光显微光学切片断层成像系统(fluorescence mirco-optical sectioning tomography,f
学位
疏棉状嗜热丝胞菌脂肪酶(Thermomyces lanuginosus lipase,TLL)是一种耐受性较强的碱性脂肪酶,在油脂水解与修饰、药物手性拆分、生物柴油生产等领域具有广阔的应用前景,但因其自然产率低,难以满足应用于食品、医药等高要求工业。解脂耶氏酵母(Yarrowia lipolytica)是一种GRAS(Generally recognized as safe)安全型酵母,其生产的诸
学位
木质素是由苯基丙烷单元高度交联而成的生物高分子,也是唯一可提供大量芳香族化合物的天然生物质资源,但连键结构的复杂性限制了木质素的高效解聚和资源化利用。近年研究发现,木质素侧链的氧化改性可促进其高效解聚。在自然界中,木质素降解微生物进化出一系列可氧化改性木质素的酶类,有望为木质素解聚提供一种绿色、温和的生物改性策略。本论文利用漆酶和Cα-脱氢酶Lig D氧化改性木质素的特性,分别构建了三种生物改性促
学位
提高碱性土壤的固碳能力是实现碳中和的主要途径之一,在提高陆地生态系统碳汇研究中备受关注。桂林会仙岩溶湿地是中国最大的天然岩溶湿地,近年来,气候改变与人为活动干扰等因素导致湿地土壤退化现象较严重。岩溶湿地土壤具有富钙偏碱的特点,存在大量的自养固碳微生物类群。研究利用固碳微生物提升自然退化和人为干扰状态下岩溶湿地土壤的固碳潜能,对于保护和修复岩溶湿地土壤具有重要意义。本文选取了原生湿地、退化湿地和垦后
学位
红豆杉属植物(Taxus)为我国珍稀濒危物种,是重要抗癌药物紫杉醇的来源植物,但由于红豆杉天然资源匮乏,紫杉醇原料药一直处于供不应求的状态。为了缓解紫杉醇原料药的短缺问题、保护野生红豆杉资源,国内建立了大量的红豆杉种植基地。红豆杉在大规模种植过程中容易爆发病虫害,其中炭疽病是普遍发生病害之一,导致大批扦插苗干枯坏死,给农户和企业造成严重的经济损失。生物防治具有可持续发展优势,在众多生物防治剂中,根
学位
宫颈细胞学筛查能有效降低宫颈癌的发病率和死亡率,基于宫颈细胞图像的计算机辅助诊断是推广宫颈细胞学筛查的关键,与深度学习相结合的方法更是进一步提升了筛查的效果和效率。因医疗资源分布不均,推广宫颈细胞学筛查面临医疗资源充足的主流应用场景和医疗资源受限场景。在医疗资源充足场景,辅助诊断基于宫颈细胞涂片的全玻片图像(Whole Slide Image,WSI),需借助高端显微镜成像和充足算力分析。主流方法
学位
微生物诱导碳酸钙沉淀(Microbiologically Induced Calcite Precipitation,MICP)是一种低能耗、低排放的绿色胶结技术,在砂土胶结,文物修复,重金属固定,扬尘抑制等方面具有广大的应用前景。生物聚合物、天然纤维增强的MICP胶结材料力学性能更强,更环保,有望取代部分传统胶凝材料,但其具体机制还不十分清楚。为此,本文探究了黄原胶和剑麻纤维对MICP胶结作用的
学位
甘蓝型油菜是最重要的油料作物之一,油菜油约占国产植物产油量的50%,为中国食用植物油的首要来源。在油菜种子发育过程中,存在着诸多转录因子参与并调控种子发育的各个阶段,包括调节种子大小、含油量、胁迫响应等诸多功能途径,最终决定油菜产量。因此,构建种子发育过程中转录因子间的调控网络,不仅能阐明转录因子相互作用的分子机制,也有助于进一步提高油菜产量和含油量。本研究在课题组前期工作基础上,通过对实验方法进
学位