论文部分内容阅读
定量结构-性质/活性关系(Quantitative Structure- Property /Activity Relationship, QSPR/QSAR)方法是目前非常热门的研究领域之一,它主要应用各种统计学方法和分子结构参数研究化合物的结构与其各种物理化学性质以及生物活性之间的关系。随着计算机技术日新月异的发展并被应用到化学领域,QSPR/QSAR的研究提高到了一个新的水平,其研究对象包括化合物的生物活性、毒性、药物在人体的吸收率等,研究领域涉及化学、药物化学、环境科学和药物设计等诸多学科。化合物的性质(活性)是由其化学结构决定的,即化合物结构发生变化,其性质(活性)也会相应发生变化。因此化合物的结构与性质(活性)之间存在着一定的关系。我们可以用多种不同的线性或者非线性方法来表示化合物结构与性质(活性)之间的关系,如启发式方法(HM),多元线性回归(MLR),人工神经网络(Artificial Neural Network, ANN),支持向量机(Support Vector Machine,SVM),最小二乘支持向量机(Least-Squares Support Vector Machine, LS-SVM)以及投影寻踪回归(Projection Pursuit Regression, PPR)方法等。QSPR/QSAR研究的对象主要是有机小分子,也就是对接中的药物配体分子。而如果研究生物大分子即药物受体分子,由于结构非常复杂,用QSPR/QSAR方法很难解决我们的化学问题。幸运的是,各种复杂的化学问题都可以通过解量子化学方程式,即薛定谔方程得到答案,但是解薛定谔方程相当复杂,尤其是用于生物大分子体系几乎是不可能的。量子化学拓扑方法(Quantum Chemical Topology, QCT)为我们用非常复杂的量子化学波函数来解决化学问题起到了一个衔接作用。量子化学拓扑方法主要是研究原子中电子云的排布来获得我们想要的化学信息,比如,在研究原子-原子之间静电作用势能时,为了得到更为精确的计算结果,用电子云的偶极、三极、以及多极拓扑性质代替点电荷进行计算。本论文第一章简述了QSPR/QSAR的基本原理及研究现状,着重介绍了QSPR/QSAR的实现步骤;详细描述了SVM, LS-SVM,和PPR算法的基本原理并概述它们在QSPR/QSAR中的应用研究。同时,对量子化学拓扑理论研究及其应用进行了阐述。论文第二章介绍了LS-SVM方法在QSPR/QSAR中的应用研究。主要包括以下几个方面的研究工作:(1)应用LS-SVM回归方法预测红葡萄酒的蜜糖成分中易挥发有机化合物的气相色谱保留时间。用启发式方法(HM)和最小二乘支持向量机方法(LS-SVM)对45个有机化合物的5个分子结构描述符与其保留时间之间分别建立了线性和非线性QSPR模型。对于测试集的均方根误差RMSE分别为2.728和2.193,表明非线性的LS-SVM模型的预测能力高于线性的HM模型,而且预测值和实验值是非常一致的。这一研究提供了一种新的有效的从分子结构预测易挥发有机化合物保留时间的方法。(2)应用LS-SVM分类方法对一系列新颖的肾上腺黑皮质素(melanocortin-4,MC4)选择性抑制剂进行分类研究。用前向逐步线性判别分析(LDA)方法从这62个对二氮己环化合物所计算出的大量分子描述符中选出5个作为LS-SVM的输入。LS-SVM分类模型对训练集的准确率为97.62%,测试集为95%。该分类模型的应用对判别MC4选择性抑制剂的活性提供了一种有效、可靠的方法。论文第三章介绍了PPR方法在QSPR/QSAR中的应用研究。主要包括以下几个方面的研究工作:(1)应用HM, SVM和PPR方法建立预测CCR5受体和79个氨基化合物的结合力与它们分子结构描述符之间的定量结构活性关系模型。用HM方法建立了线性相关模型,然后用相同的描述符作为SVM和PPR的输入,建立了非线性的定量结构活性相关模型。HM模型对测试集的均方误差(squared standard error, s2)是0.238,相关系数R2是0.715。SVM和PPR模型对测试集的s2分别为0.210和0.207,R2分别为0.732和0.726。比较HM,SVM和PPR的结果可以看出:非线性模型的预测能力好于线性模型。(2)应用PPR方法预测吸附在云杉表面的PCDD/Fs在阳光照射下的光分解半衰期(t1/2)。用HM和PPR方法分别建立了线性和非线性模型。线性和非线性方法都给出令人满意的预测结果:对于整个数据集均方根误差RMSE分别为0.042和0.032,相关系数R2为0.828和0.893。通过分析模型,可以找出影响PCDD/Fs在阳光照射下的光分解半衰期(t1/2)的结构因素。同时本工作为预测PCDD/Fs的光分解半衰期(t1/2)提供了两种快速、有效的方法。论文第四章介绍了基于量子化学拓扑理论的新的力场的研究。主要研究工作为:应用高阶拓扑多极距计算crambin蛋白分子中原子-原子之间的静电相互作用势能。Crambin中含有N,H,O,C和S五种元素,共有15种原子相互作用类型,用电子云高阶拓扑多极距计算原子间的静电作用能,并且得到每种原子相互作用类型静电势能收敛的最小作用距离。另外,将QCT计算得到的静电势能与用点电荷的AMBER力场计算得到的结果进行比较:量子化学拓扑方法计算得到的结果与实际结果非常接近,而AMBER结果却很不理想。通过分析计算结果可以得出,在分子模拟中,当前广泛应用的力场,如AMBER力场,计算结果并不令人满意。而我们希望研究一种新的基于量子化学拓扑理论的力场用于计算原子间的静电相互势能和模拟化学反应过程。