化学品线粒体毒性的机器学习分类模型

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:qwertyuiopgfdsa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
线粒体是真核细胞进行能量代谢的细胞器。许多化学品具有线粒体毒性,可导致线粒体功能紊乱。因此,有必要筛查引起线粒体功能紊乱的化学品。仅通过实验测试的方法,难以满足众多化学品的线粒体毒性筛查需求。有必要发展快速、高效的方法,筛查化学品的线粒体毒性。定量构效关系(QSAR)模型可用于高效筛查和预测化学品的毒性。本论文针对模型训练集数据不平衡、黑箱模型难以对毒性机制进行解释、已有线粒体毒性QSAR分类模型仅能预测线粒体膜电位扰动等问题,引入多种机器学习算法和不平衡数据处理方法,构建了线粒体毒性(包括线粒体膜电位扰动、线粒体分裂和融合抑制和线粒体电子传递链抑制)的QSAR分类模型,并识别了线粒体毒性的警示子结构。主要内容和结果如下:(1)采用5种机器学习算法(随机森林、支持向量机、朴素贝叶斯、逻辑回归和分类回归树)和12种分子结构指纹,构建了线粒体膜电位扰动剂的单个和一致性QSAR分类模型。研究了不平衡数据处理对模型性能的影响。识别了线粒体膜电位扰动化学品的警示子结构。结果表明,对于单个分类模型,随机森林算法构建的模型性能最佳。基于随机森林算法构建的最佳的一致性分类模型的十折交叉验证的平均平衡准确率、受试者操作特征曲线下面积(AUC)、灵敏度和特异性分别为81.8%,89.9%,82.9%和80.7%,外部验证的平衡准确率、AUC、灵敏度和特异性分别为88.3%,94.1%,92.2%和84.4%,表明该模型呈现良好的稳健性和泛化能力,可用于筛查线粒体膜电位的扰动剂。调节阈值的不平衡数据处理方式提高了模型的分类效果。子结构分析的结果表明芳香环、苯酚基团、羧酸基团、硝基、芳基氯基团等是线粒体膜电位扰动剂的警示子结构。(2)采用随机森林、深度神经网络、逻辑回归和伯努利朴素贝叶斯4种机器学习算法和12种分子结构指纹,构建了线粒体融合和分裂抑制剂QSAR分类模型。识别了线粒体融合和分裂抑制剂的警示子结构。对于线粒体融合抑制剂,随机森林构建的模型效果最优,其100次5折交叉验证平均AUC、平衡准确率、灵敏度和特异性分别为82.2%,74.4%,78.4%和70.5%;其外部验证的AUC、平衡准确率、灵敏度和特异性分别为70.8%,65.9%,53.5%和78.3%。对于线粒体分裂抑制剂,逻辑回归构建的模型效果最优,其平均AUC、平衡准确率、灵敏度和特异性分别为81.5%,73.6%,72.6%和74.7%;其外部验证的AUC、平衡准确率、灵敏度和特异性分别为92.5%,72.5%,45.0%和100%。研究结果表明所建模型具有较好的筛查能力,可用于筛查线粒体融合和分裂抑制剂。基于构建的模型,筛查了中国现有化学物质名录中的化学品,结果显示,770个化学物质可能是线粒体融合抑制剂;3709个化学物质可能是线粒体分裂抑制剂。另外,识别了 45个线粒体融合抑制剂警示子结构,包括氨基、嘧啶基团、三嗪基团等;56个线粒体分裂抑制剂的警示子结构,包括苯酚基团、氯代苯基基团等,这些警示子结构可以辅助构建的模型,增加对线粒体融合和分裂抑制的毒性机理理解。(3)采用随机森林、极端梯度提升树和支持向量机算法,以分子结构指纹作为描述符,构建了线粒体电子传递链抑制剂的QSAR分类模型。研究了不同一致性建模策略(包括均值法、最大值法和堆叠法)对模型性能的影响。结果表明,单个分类模型中,随机森林算法构建的模型性能最优,其十折交叉验证平均AUC、平衡准确率、灵敏度和特异性分别为85.2%,77.8%,79.8%和75.8%;外部验证的平均AUC、平衡准确率、灵敏度和特异性分别为86.1%,78.2%,79.8%和76.7%。一致性建模策略分析表明基于随机森林和支持向量机单个分类模型的输出,采用堆叠法构建的一致性分类模型效果最优。综上,本研究针对多种线粒体毒性终点发展了 QSAR分类模型,并识别了线粒体毒性的警示子结构。所建模型和识别的警示子结构可用来筛查化学品的线粒体毒性,为化学品管理决策提供参考数据。
其他文献
二氧化铪(HfO2)是代表性的高介电常数材料,已成功应用于65 nm及以下技术节点的互补金属氧化物半导体(CMOS)集成电路大规模工业化生产。2011年,德国Qimonda公司的T.B(?)scke等首先报道了 Si掺杂HfO2纳米薄膜的铁电和反铁电性质,这一新发现赋予了 HfO2更加丰富的研究内涵和全新的应用价值。HfO2基新型铁电薄膜兼具无铅、物理膜厚超薄、特别是优秀的Si基CMOS集成工艺兼
学位
后过渡金属配合物催化乙烯和极性单体的共聚,可以得到功能化聚乙烯。通过配体修饰可以改进催化剂的结构,进而调控聚合物的微观结构。目前实验手段无法得知聚合机理和解释一些实验现象,因此,我们运用密度泛函理论研究共聚反应机理,探明催化活性差异的根源,为后序进行催化剂的设计提供理论指导。主要结论如下;(1)对比研究两种不同取代基的膦磺酸钯配合物A((POOMe,OMe)PdMe(Pyridine),POOMe
学位
Half-Heusler合金是一种热电性能和力学性能优异的热电材料,由于其工作温度区间为中高温区域,因此在废热回收和深空探测等领域具有很好的应用前景。目前普遍认为,性能较好的N型MNiSn(M=Ti,Zr,Hf)half-Heusler热电材料为Zr1-x-yHfxTiyNiSn1-zSbz(x,y=0~1,z=0~0.04)体系。然而,该体系中Hf的最优掺杂量在0.4~0.7之间,由于Hf元素价
学位
随着智能大数据时代的来临,多媒体数据呈现爆炸式增长。面对如此海量的、高维的、服从不同分布的大规模数据,如何快速且有效地对其进行检索、分类、并且能够从中提取有利用价值的信息,已经成为现代机器学习最具有挑战性的前沿方向之一。迁移学习是机器学习领域用于解决标注数据稀缺这一基础问题的重要方法,它放宽了传统机器学习中训练数据和测试数据需要满足独立同分布的假设条件,因而能够在两个彼此不同但又相关的领域之间发掘
学位
在肾衰竭患者体内普遍存在蛋白结合尿毒症毒素(Protein bound uremia toxins,PBUT)。该类毒素一般是指与人血清白蛋白结合的分子量小于500道尔顿的疏水性小分子物质,包括已经被证实诱发肾透析患者产生心脑血管并发症的硫酸吲哚酚、硫酸对甲酚等,占肾衰竭患者体内毒素约26%。现有血液透析技术对肌酐、尿素氮等水溶性小分子去除效果良好,但对蛋白结合尿毒症毒素去除效果不佳,发展高效的P
学位
柔性应变传感器是将外部刺激转化为电学信号的一类器件,其具有可弯曲和可拉伸的特性,在软体机器人、生物医疗以及人机交互等方面已有大量研究报道。柔性应变传感器的核心部件是应变传感材料,制备耐拉伸和环境稳定的应变传感材料仍具有较大的挑战。针对上述问题,本论文利用共价键交联与非共价键交联共同作用的策略,制备出耐拉伸、保水性和粘附性的双网络离子水凝胶,耐拉伸环境稳定的双网络乙二醇有机凝胶和耐拉伸耐潮湿的弹性体
学位
碳点(carbon dots,CDs)是一种新型的零维碳基纳米材料,尺寸普遍小于10 nm,具有优异的光学性能,在生物成像以及肿瘤治疗等领域受到广泛关注。尽管碳点克服了无机纳米材料生物相容性低以及小分子荧光材料制备复杂、价格昂贵等问题,但目前仍面临诸多挑战。例如,用于成像的碳点吸收和发射波长普遍较短(400-500nm),易受背景荧光干扰,且缺乏靶向性。基于此,本论文通过深入研究碳源分子结构和碳点
学位
设计模式是软件设计中重要的概念之一,旨在通过复用设计经验来提升软件系统开发的效率和质量。围绕软件设计模式已有诸多研究工作,但仍存在一些问题未被解决:关于设计模式分析的研究工作通常只涉及少数几个设计模式,而目前已积累了大量的设计模式,已有分析方法(如调查问卷方法)很难对数量众多的设计模式进行处理;由于软件技术的高速发展,设计模式文档中的应用信息很难与当前流行的软件技术进行即时关联,而如何高效地获取这
学位
光电催化技术是直接利用太阳能生成清洁能源和绿色化工产品的重要技术之一。铟基硫化物半导体凭借其优异的光吸收、电化学以及催化性能,成为光电催化领域的热点研究材料。本论文以n型铟基硫化物为研究对象,基于硫化物本身成分和形态的可调性、多样性和通用性,通过调控铟基硫化物异质光阳极的物相组成和形貌结构,提高其光生电荷传输效率、优化表面催化反应活性和稳定性,取得了以下研究成果:基于层状材料有机-无机杂化的合成策
学位
目前,造血干/祖细胞(Hematopoietic stem/progenitorcells,HS/PCs)的体外扩增是解决临床移植用HS/PCs数量短缺的有效途径之一,但离体培养通常伴随着其长期增殖活性的丧失。因此,体外培养如何能有效维持HS/PCs的干细胞活性且又能实现其大量扩增是当前亟待解决的关键问题。随着对造血系统的生理结构和功能调控的研究,仿生构建造血微环境来实现其有效扩增成为当前研究热点
学位