论文部分内容阅读
化合物结构与性质/活性定量关系(quantitative structure-property/activity relationship,QSPR/QSAR)的研究最初应用在生物领域,是定量药物设计的一个研究分支领域,为了适应合理设计生物活性分子的需要而发展起来的。由于计算机技术的发展和应用,QSPR/QSAR的研究提高到了一个新的水平,日益成熟,其应用范围也迅速扩大,涉及到生物,药物科学,化学以及环境科学等诸多学科。人们期望用一个成功的运算模型,能从分子水平上理解分子的微观结构同其宏观性质/活性之间的关系,为设计,筛选或预测具有人们期望的性质的化合物提供信息,并据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素。化合物结构与性质,性质与性质之间不仅有线性关系,而且还存在非线性关系。不同的问题需要用不同的方法来解决。对于线性问题,运用回归分析等方法即可解决。非线性问题的处理相对就要复杂的多。对于简单的非线性问题,通过恰当的数学转换将其转化为线性问题处理;不能转化为线性问题时,我们可以用一个恰当的非线性函数,通过拟合来解决问题;若问题更复杂时,即碰到那些因果关系不明了,推理规则不确定的非线性问题,可以采用多种机器学习方法来逼近,如神经网络(Artificial neural network,ANN),支持向量机(support vector machine,SVM)以及投影寻踪回归(Projection pursuit regression,PPR)等方法。本论文第一章简述了定量结构性质/活性关系的基本原理和研究现状,详细描述了QSPR/QSAR实现步骤以及其中牵涉到的一些问题,并对这一研究领域的最新进展进行了总结和展望。本学位论文从分子结构的定量描述和结构与性质/活性定量关系的建立入手,探索了多种方法在QSPR/QSAR建模中的应用,主要进行了以下三方面的研究工作:●线性回归方法在QSPR/QSAR研究中的应用具体研究内容包括:1.用启发式回归方法(Heuristic Method,HM)建立了42种热致液晶分子的向列转变温度和其结构之间的定量结构性质相关模型。所得的5参数线性方程对测试集的判定系数R2=0.9216,预测的均方根误差RMSE=6.3654,绝对平均相对误差AARD=9.2017%,均优于文献结果。2.用最佳多元线性回归(Best Multi-linear Regression,BMLR)方法建立了线性模型,研究了209种多氯联苯GC×GC-TOFMS保留时间与其结构之间的相关。所得模型用两种方法进行检验:测试集和6-fold交互检验集。测试集的判定系数R2高达0.975,AARD则是3.08%,6-fold交互检验集的AARD平均数值为3.21%,两者结果很相似,说明所建的模型稳健且预测能力很好。3.用启发式回归方法建立了线性模型,预测152种C5-C8链状单烯烃在聚二甲基硅氧烷(Polydimethysiloxane,PDMS)和角鲨烷(Squalane,SQ)固定相的Kováts保留指数。该研究中我们首次将一类新的结构描述符—3D拓扑图形连接性指数应用于色谱保留指数的预测。3D拓扑图形指数能对分子的三维电子结构特征作更准确地描述,它们与CODESSA软件计算的其他5类描述符相结合,对链状烯烃的色谱保留指数作关联分析。结果表明,3D拓扑图形指数在对色谱保留指数的关联方面比起传统的二维分子连接性指数更加敏感,所得模型不仅具有很好的预测能力,而且还能区分烯烃同分异构体。对两种固定相体系,所得模型中都有相同的三个参数,对测试集的判定系数R2分别是0.97(PDMS)和0.958(SQ),AARD分别是1.37%(PDMS)和1.52%(SQ)。●支持向量机(Support vector machine,SVM)在QSPR/QSAR研究中的应用具体研究内容包括:1.应用支持向量机(SVM)以及线性判别分析(Linear Discriminant Analysis,LDA)对131种皮肤敏感性化合物的分类研究。SVM模型对训练集和测试集的预测准确率分别是89.77%和72.09%,均优于LDA的79.55%和67.44%。另外考虑到样本的多样性,我们对整个数据集作了10-fold交互检验,其结果与SVM对测试集的预测结果基本一致,说明SVM模型是稳健的。2.应用SVM建立了62个聚乙氧基型非离子表面活性剂浊点(cloud point,CP)的定量预测模型。计算了三类描述符:组成,拓扑和几何描述符,总计88个,用启发式回归搜索方法筛选出了对浊点具有最佳关联的4个参数的线性模型,对测试集样本预测的RMSE为8.0824,AARD为16.1955%,判定系数R2为0.9318。用这4个参数作为输入向量,应用SVM建立了非线性模型,对测试集预测的RMSE为4.2727,AARD为9.5490%,判定系数R2为0.9765。可以看出SVM模型预测的结果更加准确。3.应用SVM建立了137种分子总氢键酸度与分子结构特征之间的定量结构性质相关模型。采用启发式回归方法筛选出包含5个描述符的最优组合,然后用这些描述符作为输入,分别建立了多元回归(Multiplier Linear Regression,MLR)模型,径向基函数神经网络(Radial Basis Function Neural Network,RBFNN)模型以及SVM模型相比较。其中,SVM模型的预测结果最佳,对于测试集的R2,RMSE以及AARD分别是0.8829,0.0650和5.748%,分别优于MLR模型的0.7845,0.0863和19.63%以及RBFNN模型的0.8655,0.0772和24.46%。4.应用SVM建立模型预测了112个链烃和芳香烃在大气对流层中与NO3自由基反应的速率常数。采用启发式回归方法筛选出最佳描述符组合,并用同样的描述符作为输入,分别建立了MLR模型,RBFNN模型以及SVM模型,对三种模型的预测性能做了对比。线性模型对于测试集的预测的判定系数R2=0.882,RMSE=0.866,AARD=5.023%;RBFNN模型的结果稍好,为R2=0.933,RMSE=0.687和AARD=3.850%;而SVM模型则最好,分别是R2=0.950,RMSE=0.577以及AARD=3.343%。●投影寻踪回归(projection pursuit regression,PPR)在QSPR/QSAR中的应用具体研究内容包括:1.应用投影寻踪回归(PPR)方法建立了模型对116个有机物与O3在大气对流层中反应速率常数作了预测。用启发式方法选取的描述符作为输入向量,我们分别用MLR,SVM和PPR方法建立了模型,并对它们的预测性能做了比较。启发式方法选择的参数为7个,相应建立的线性回归方程对于测试集的预测结果为R2=0.824,RMSE=1.342,AARD(%)=5.895;采用SVM方法建模,对于测试集的预测结果比线性方程准确,分别是R2=0.875,RMSE=1.165以及AARD=4.896%;相比较用PPR建模的结果最佳,该模型对于测试集的R2增加到0.912,而RMSE和AARD(%)则分别减小为1.041和4.663。另外,PPR的训练过程简单,快速且占较少的内存,这是SVM无法比拟的。2.PPR与遗传算法(Genetic Algorithm,GA)结合建立了模型预测了80个类药分子和β1型人体甲状腺激素受体的结合强度,并对分子结构与结合强度作了相关分析讨论。GA最终选择了6个变量(既有线性的也有非线性的),用这六个变量分别建立了MLR方程和PPR模型。MLR模型的结果很差,对于测试集预测的判定系数R2仅为0.7233,AARD=8.28%,RMSE=0.7172,而PPR的预测结果则是R2=0.8928,AARD=4.19%,RMSE=0.4498。很显然,PPR模型能更加准确地拟合这些变量与结合强度之间的关系。3.应用PPR建立了288种离子液体熔点与其结构特征之间的定量结构性质相关模型,对熔点作了预测。我们采用启发式回归搜索方法来筛选最佳描述符组合,并用选取的描述符作为输入向量,分别建立了MLR模型和PPR模型,对两个模型的预测能力作了比较。结果表明,PPR模型的预测能力较MLR模型更为准确,预测的R2=0.810,AARD(%)=17.75,优于多元线性回归模型的R2=0.712和AARD(%)=24.33。此外,通过描述符与熔点之间的相关分析,我们还总结出了一些分子结构特征对于离子液体熔点影响的规律,从而为离子液体的功能化设计提供信息。