论文部分内容阅读
有机污染物定量结构-活性相关(QSAR)对于有机化合物的生态风险性评价、污染控制和预防等具有重要意义。定量结构-性质/活性相关(QSPR/QSAR)研究应用各种统计学方法和理论计算方法研究化合物的结构与其各种物理化学性质以及生物活性之间的定量关系。QSAR可以弥补基础数据的缺失、降低昂贵的测试费用、减少动物实验。本论文依照经济合作与发展组织(OECD)关于QSAR模型构建和使用的导则,就小样本QSAR研究中变量选择和模型优化效果进行了深入地研究和探讨,在此基础上逐步地建立了最佳的QSAR模型,并对所得的模型进行了相应的解释。近年来,随着海洋环境污染日益严重,有毒赤潮频繁发生,由赤潮毒素引起的人员中毒和死亡事件屡见不鲜,其中麻痹性贝毒(Paralytic shellfish poisoning toxins, PSP toxins)是赤潮贝毒素中分布范围最广,发生毒害次数最频繁,同时对人类影响最为严重的一类毒素。本文第二章运用密度泛函(DFT)理论在B3LYP/6-31G(d)水平下计算了17种麻痹性贝毒素的量子化学结构描述符,采用修正Cp统计量为目标函数的改进蚁群算法进行变量选择,建立了麻痹性贝毒素的半数致死浓度与其量化参数之间的QSAR模型;模型的决定系数R2为0.968,交叉验证系数q2为0.858,表明模型具有良好的拟合效果和较好的预测能力;同时使用“jackknife法”检验模型,相关系数R有16个落在0.982~0.987之间,占总数的94.1%,表明模型具有较强的稳健性。在所考察的诸多参数中,分子最高占有轨道特征值EHOMO对麻痹性贝类毒素的半数致死剂量影响最大,其次为分子的次高占据轨道能量ENHOMO,说明分子的轨道相互作用和反应活性对麻痹性贝毒素的生物毒性具有决定性的影响。第二章所建立的模型具有不能涵盖所有麻痹性贝毒素、使用的量子化学描述符计算时间过长等缺陷。为了解决这些问题,本文第三章使用27种麻痹性贝毒素中的1751种分子结构描述符和其半数致死浓度建QSAR模型,采用基于关联度的变量选择法(Correlation-based Feature Selection,CFS)选择变量,并使用交叉验证法检验变量子集,最后从1751种分子结构描述符中,筛选出43种与目标值关系极密但内部关系较低的变量。用主成分分析法压缩变量集的维度,提取10种主成分作为新的变量建QSAR模型。模型的相关系数R2为0.891,交叉验证系数q2为0.809,表明模型拟合效果和预测能力良好。用“jackknife法”检验模型的稳定性,有88.9%的相关系数R落在0.94和0.95之间,说明模型稳健性和可靠性较强。结果,基于关联度的变量选择法非常适合从成百上千种变量中筛选,它在消除无关变量的同时也能消除重复变量,有利于数据的处理,在QSAR建模中应用前景广阔。第三章模型仍然沿用留一交叉验证法进行模型预测能力检验,为了提高模型的预测能力,本文第四章使用外部验证法进行模型预测能力检验。使用27种麻痹性贝毒素中的1751种分子结构描述符和其半数致死浓度建QSAR模型,采用基于关联度的变量选择算法选择变量,所有样本作为训练集,从1751种分子结构描述符中筛选出17种与目标值关系极密但内部关系较低的变量,构成最优变量集。最优变量集做主成分分析以辅助训练集和测试集的划分,并进行霍特林T方检验剔除“异常点”。最后确定样本26为“异常点”,样本9、10、12、14、16、22作为测试集,剩余的样本作为训练集。分别使用改进蚁群算法和逐步多元线性回归方法对训练集进行QSAR建模,结果表明:改进蚁群算法模型在拟合效果、残差正态分布、自变量共线性诊断、模型稳健性和预测能力上都好于逐步多元线性回归模型。Biowin2变量代表化学物质的快速好氧生物降解可能性,在两个模型中都是最重要的影响因素。氨基甲酸酯、脂肪醇、酯、脂肪酸和季碳官能团以及分子量通过影响Biowin2而间接影响到麻痹性贝毒素的pLD50。拓扑类变量H1v、SIC4和5χAv都对模型有重要影响,但由于拓扑结构参数自身的抽象性和难以解释性缺点,其机理尚待进一步分析。