论文部分内容阅读
正辛醇/空气分配系数(KOA)是描述污染物在空气和环境有机相之间分配行为的一个关键参数,对于评估污染物的长距离环境迁移能力和生物蓄积性等具有重要意义。实验测定KOA,成本昂贵,比较费时,并且部分化合物尚缺乏标准样品。因此,需要发展简便而准确的KOA理论预测法,用于估算有毒有机污染物的KOA。本论文发展了预测KOA的碎片常数模型和基于Dragon描述符的3D-定量结构-活性关系(QSAR),并对现有的三种KOA预测方法和本研究建立的两种KOA预测模型进行了全面评价。
1.首先建立了预测不同温度下卤代芳烃化合物KOA的碎片常数模型。利用该模型定义的5个碎片常数和1个结构修正因子,可以预测卤代芳烃化合物在10℃到40℃之间的KOA值。碎片常数模型的训练集由包含C、H、O、Cl和Br原子的芳烃化合物组成,因此模型的应用范围为氯代和溴代的芳烃化合物,如氯苯(CBs)、多氯代萘(PCNs)、多氯联苯(PCBs)、多氯代二苯并二噁英和多氯代二苯并呋喃(PCDD/Fs)、多环芳烃(PAHs)、多溴代联苯醚(PBDEs)等,这些都是典型的持久性有毒物质(PTS)。内部验证(Jackknife检验)和外部验证(包含316个数据点)结果表明,该模型具有较高的稳健性和预测能力。相比于采用量子化学描述符的QSAR模型,本研究建立的KOA预测模型更加简单而准确。
2.为了扩展KOA预测模型的应用范围,全面收集了272个化合物在环境温度(25℃)下的logKOA实验测定值,数据集包含了CBs、PCBs、PCNs、PCDD/Fs、PBDEs、PAHs、有机氯杀虫剂、多氟代磺胺药物、羟基烷基硝酸盐、磺胺乙醇、端醇、卤代烃、醚、酮、醛、酸、酯等有机污染物。
基于272个logKOA的实验测定数据,采用逐步回归-偏最小二乘(SR-PLS)变量筛选法,确定原子中心碎片的最佳组合,建立了预测有毒有机污染物单一温度下KOA的碎片常数模型。包含23个原子中心碎片的最优模型解释了因变量总方差的97.7%,预测均方根误差(RMSE)为0.43。内部验证(去一法和去多法)和外部验证结果表明,该碎片常数模型具有较高的稳健性,并且对于应用域内的化合物具有较高的预测能力。单一温度下KOA的碎片常数模型具有更大的应用域,可用于预测多种类、宽范围的有机污染物在25℃下的KOA。
3.基于272个logKOA数据,采用Dragon描述符建立了3D-QSAR模型。经SR-PLS变量选择方法,最优模型共引入9个分子结构描述符(X1sol、GATS2p、C006、C025、H050、Mor04p、L3s、C005、N072),解释了因变量总方差的98.2%,预测RMSE为0.38。通过最优模型的机理分析得出,控制KOA的主要影响因素为分子在正辛醇中的色散作用、特定结构碎片形成氢键的能力、分子形状和对称性方面的3D结构特征以及共轭体系的电子效应。内部验证(去多法、去—法、Y的随机性检验)和外部验证结果表明,3D-QSAR模型具有较高的稳健性,并且对于应用域内的化合物具有很高的预测能力。
4.从应用角度综合评价和比较了本文建立的单一温度KOA的碎片常数模型、基于Dragon描述符的3D-QSAR模型和现有的3种KOA定量预测方法。现有的3种KOA定量预测方法包括:基于正辛醇/水分配系数(KOW)和亨利定律常数(KH)的直接计算法,基于溶解自由能的理论计算法,基于量子化学描述符的QSAR模型。
结果表明:(1)KOW-KH直接计算法的理论应用域很大,稳健性较高。但是大多数化合物的KOW和KH的实测值较缺乏,因此KOW-KH直接计算法的预测准确性高度依赖于KOW和KH预测值的准确性,它们的误差可能联合扩大KOA的预测不确定性。(2)基于溶解自由能的理论计算法,应用域很大,但溶解自由能的计算误差较大,从而影响KOA的预测准确性。(3)基于量子化学描述符的QSAR模型,分子结构描述符具有明确的物理化学意义,并且能够分辨同分异构体。(4)碎片常数法具有明确的算法,碎片划分简便而快速,并且对应用域内的化合物具有较好的预测能力,但该方法应用范围受训练集化合物覆盖程度的限制。(5)基于Dragon描述符的3D-QSAR模型,对同分异构体具有很好的分辨能力,并且分子结构描述符易于机理解释,对于应用域内的化合物该模型给出更加准确的预测结果。