QSPR/QSAR在药物、分析化学和环境科学中的应用

被引量 : 29次 | 上传用户:iqwanifir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化合物结构与性质/活性定量关系(quantitative structure-property/activity relationship,QSPR/QSAR)的研究最初应用在生物领域,是定量药物设计的一个研究分支领域,为了适应合理设计生物活性分子的需要而发展起来的。由于计算机技术的发展和应用,QSPR/QSAR的研究提高到了一个新的水平,日益成熟,其应用范围也迅速扩大,涉及到生物,药物科学,化学以及环境科学等诸多学科。人们期望用一个成功的运算模型,能从分子水平上理解分子的微观结构同其宏观性质/活性之间的关系,为设计,筛选或预测具有人们期望的性质的化合物提供信息,并据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素。化合物结构与性质,性质与性质之间不仅有线性关系,而且还存在非线性关系。不同的问题需要用不同的方法来解决。对于线性问题,运用回归分析等方法即可解决。非线性问题的处理相对就要复杂的多。对于简单的非线性问题,通过恰当的数学转换将其转化为线性问题处理;不能转化为线性问题时,我们可以用一个恰当的非线性函数,通过拟合来解决问题;若问题更复杂时,即碰到那些因果关系不明了,推理规则不确定的非线性问题,可以采用多种机器学习方法来逼近,如神经网络(Artificial neural network,ANN),支持向量机(support vector machine,SVM)以及投影寻踪回归(Projection pursuit regression,PPR)等方法。本论文第一章简述了定量结构性质/活性关系的基本原理和研究现状,详细描述了QSPR/QSAR实现步骤以及其中牵涉到的一些问题,并对这一研究领域的最新进展进行了总结和展望。本学位论文从分子结构的定量描述和结构与性质/活性定量关系的建立入手,探索了多种方法在QSPR/QSAR建模中的应用,主要进行了以下三方面的研究工作:●线性回归方法在QSPR/QSAR研究中的应用具体研究内容包括:1.用启发式回归方法(Heuristic Method,HM)建立了42种热致液晶分子的向列转变温度和其结构之间的定量结构性质相关模型。所得的5参数线性方程对测试集的判定系数R2=0.9216,预测的均方根误差RMSE=6.3654,绝对平均相对误差AARD=9.2017%,均优于文献结果。2.用最佳多元线性回归(Best Multi-linear Regression,BMLR)方法建立了线性模型,研究了209种多氯联苯GC×GC-TOFMS保留时间与其结构之间的相关。所得模型用两种方法进行检验:测试集和6-fold交互检验集。测试集的判定系数R2高达0.975,AARD则是3.08%,6-fold交互检验集的AARD平均数值为3.21%,两者结果很相似,说明所建的模型稳健且预测能力很好。3.用启发式回归方法建立了线性模型,预测152种C5-C8链状单烯烃在聚二甲基硅氧烷(Polydimethysiloxane,PDMS)和角鲨烷(Squalane,SQ)固定相的Kováts保留指数。该研究中我们首次将一类新的结构描述符—3D拓扑图形连接性指数应用于色谱保留指数的预测。3D拓扑图形指数能对分子的三维电子结构特征作更准确地描述,它们与CODESSA软件计算的其他5类描述符相结合,对链状烯烃的色谱保留指数作关联分析。结果表明,3D拓扑图形指数在对色谱保留指数的关联方面比起传统的二维分子连接性指数更加敏感,所得模型不仅具有很好的预测能力,而且还能区分烯烃同分异构体。对两种固定相体系,所得模型中都有相同的三个参数,对测试集的判定系数R2分别是0.97(PDMS)和0.958(SQ),AARD分别是1.37%(PDMS)和1.52%(SQ)。●支持向量机(Support vector machine,SVM)在QSPR/QSAR研究中的应用具体研究内容包括:1.应用支持向量机(SVM)以及线性判别分析(Linear Discriminant Analysis,LDA)对131种皮肤敏感性化合物的分类研究。SVM模型对训练集和测试集的预测准确率分别是89.77%和72.09%,均优于LDA的79.55%和67.44%。另外考虑到样本的多样性,我们对整个数据集作了10-fold交互检验,其结果与SVM对测试集的预测结果基本一致,说明SVM模型是稳健的。2.应用SVM建立了62个聚乙氧基型非离子表面活性剂浊点(cloud point,CP)的定量预测模型。计算了三类描述符:组成,拓扑和几何描述符,总计88个,用启发式回归搜索方法筛选出了对浊点具有最佳关联的4个参数的线性模型,对测试集样本预测的RMSE为8.0824,AARD为16.1955%,判定系数R2为0.9318。用这4个参数作为输入向量,应用SVM建立了非线性模型,对测试集预测的RMSE为4.2727,AARD为9.5490%,判定系数R2为0.9765。可以看出SVM模型预测的结果更加准确。3.应用SVM建立了137种分子总氢键酸度与分子结构特征之间的定量结构性质相关模型。采用启发式回归方法筛选出包含5个描述符的最优组合,然后用这些描述符作为输入,分别建立了多元回归(Multiplier Linear Regression,MLR)模型,径向基函数神经网络(Radial Basis Function Neural Network,RBFNN)模型以及SVM模型相比较。其中,SVM模型的预测结果最佳,对于测试集的R2,RMSE以及AARD分别是0.8829,0.0650和5.748%,分别优于MLR模型的0.7845,0.0863和19.63%以及RBFNN模型的0.8655,0.0772和24.46%。4.应用SVM建立模型预测了112个链烃和芳香烃在大气对流层中与NO3自由基反应的速率常数。采用启发式回归方法筛选出最佳描述符组合,并用同样的描述符作为输入,分别建立了MLR模型,RBFNN模型以及SVM模型,对三种模型的预测性能做了对比。线性模型对于测试集的预测的判定系数R2=0.882,RMSE=0.866,AARD=5.023%;RBFNN模型的结果稍好,为R2=0.933,RMSE=0.687和AARD=3.850%;而SVM模型则最好,分别是R2=0.950,RMSE=0.577以及AARD=3.343%。●投影寻踪回归(projection pursuit regression,PPR)在QSPR/QSAR中的应用具体研究内容包括:1.应用投影寻踪回归(PPR)方法建立了模型对116个有机物与O3在大气对流层中反应速率常数作了预测。用启发式方法选取的描述符作为输入向量,我们分别用MLR,SVM和PPR方法建立了模型,并对它们的预测性能做了比较。启发式方法选择的参数为7个,相应建立的线性回归方程对于测试集的预测结果为R2=0.824,RMSE=1.342,AARD(%)=5.895;采用SVM方法建模,对于测试集的预测结果比线性方程准确,分别是R2=0.875,RMSE=1.165以及AARD=4.896%;相比较用PPR建模的结果最佳,该模型对于测试集的R2增加到0.912,而RMSE和AARD(%)则分别减小为1.041和4.663。另外,PPR的训练过程简单,快速且占较少的内存,这是SVM无法比拟的。2.PPR与遗传算法(Genetic Algorithm,GA)结合建立了模型预测了80个类药分子和β1型人体甲状腺激素受体的结合强度,并对分子结构与结合强度作了相关分析讨论。GA最终选择了6个变量(既有线性的也有非线性的),用这六个变量分别建立了MLR方程和PPR模型。MLR模型的结果很差,对于测试集预测的判定系数R2仅为0.7233,AARD=8.28%,RMSE=0.7172,而PPR的预测结果则是R2=0.8928,AARD=4.19%,RMSE=0.4498。很显然,PPR模型能更加准确地拟合这些变量与结合强度之间的关系。3.应用PPR建立了288种离子液体熔点与其结构特征之间的定量结构性质相关模型,对熔点作了预测。我们采用启发式回归搜索方法来筛选最佳描述符组合,并用选取的描述符作为输入向量,分别建立了MLR模型和PPR模型,对两个模型的预测能力作了比较。结果表明,PPR模型的预测能力较MLR模型更为准确,预测的R2=0.810,AARD(%)=17.75,优于多元线性回归模型的R2=0.712和AARD(%)=24.33。此外,通过描述符与熔点之间的相关分析,我们还总结出了一些分子结构特征对于离子液体熔点影响的规律,从而为离子液体的功能化设计提供信息。
其他文献
水库安全问题不但关系到水库自身的正常运行,还关系到了下游城镇、村庄居民的生命财产安全。针对新疆水库存在的安全问题,进行具体的研究和对策分析。
随着世界高新技术的迅速发展,因特网作为一种全新的世界文化传播与力量,对大学生的吸引力和影响力日益增强。因特网信息的影响对学校教育提出了新的挑战,尤其是对大学教育产
二叠系山1段储层为鄂尔多斯盆地陇东地区天然气主力产气层之一,通过岩心分析、铸体薄片观察、压汞试验等方法,分析了山1段储层地质特征和储层致密的原因。结果表明:储层岩性
泛素-蛋白酶体途径是细胞内蛋白质选择性降解的重要途径,泛素分子主要通过泛素活化酶、泛素结合酶和泛素-蛋白连接酶与靶蛋白结合形成一条多泛素链,最后被26S蛋白酶体识别和
融资租赁也叫金融租赁、现代租赁,它是将传统的租赁、贸易与金融方式相结合,通过融物的形式达到融资目的的一种交易方式。自20世纪50年代,美国出现第一家融资租赁公司以后,融
目的:构建含h BMP2(Human Bone morphogenetic proteins2,h BMP2)质粒DNA的β-TCP/胶原(β-Tricalcium Phosphate/Collagenβ-TCP/胶原)支架材料,并研究其对MC3T3-E1细胞分化的影
4Cr5Mo VSi热锻造模具经过锻造和热处理后,能在540℃条件下保持较长时间的抗软化能力,并在室温下具有良好的综合性能。经过生产实践,该热处理工艺切实可行,降低了生产成本,提
根据1961—2005年塔城地区9个气象站地面实测资料,用线性趋势分析、Mann-Kendall、相关分析和合成分析等方法对塔城地区沙尘天气的时空分布及变化特征进行了分析,并对其机理
目前企业环境信息披露影响因素的研究主要集中在正式制度,而对非正式制度的研究较少。本文从正式制度与非正式制度结合的角度,采用我国重污染行业2007—2012年年报和独立报告
中国传统绘画在两宋时期获得了长足发展,确立了中国绘画的审美规范,开创和丰富了中国传统绘画的艺术语言,形成了“文人士夫画”和“院体画”两大绘画风格。宋代写意文人画的