论文部分内容阅读
定量结构-性质/活性相关(QSPR/QSAR)研究应用各种统计学方法和理论计算方法研究化合物的结构与其各种物理化学性质以及生物活性之间的定量关系,是计算化学和化学信息学研究中的研究热点之一。其研究对象包括化合物的各种物理化学性质、生物活性、毒性、药物的各种代谢动力学参数等等,研究领域涉及药物设计、分析化学、环境化学、食品科学和材料科学等诸多学科。过去10余年的工作中,我们研究小组深入研究了误差反传神经网络(Error-back Propagation Network,BP)、径向基函数神经网络(Radial Basis Function Neural Networks,RBFNN)以及支持向量机(Support Vector Machine,SVM)方法的机理,并成功用于药物设计、分析化学、环境化学、材料科学等领域中,建立了准确的QSPR/QSAR模型。本论文的工作主要分为两部分,第一部分的工作通过建立简单的线性模型就获得了令人满意的预测结果,体现了QSPR/QSAR方法的简单有效性;第二部分的工作在线性方法的基础上,为了获得更为精确的预测结果,进行了非线性方法的研究。论文第一章简述了QSPR/QSAR的发展历史、基本原理以及研究现状。同时概述了其在药物设计、分析化学、环境化学、食品科学和在材料科学等不同学科领域内的广泛应用。在论文第二章中,线性方法应用于建立QSAR模型,主要包括以下的研究工作:(1)用启发式方法(Heuristic Method,HM)建立了预测245个药物通过聚二甲硅氧烷膜的最大稳定态流量(logJ)的数学模型。在计算大量的分子描述符的基础上,首先用HM筛选出4个能代表化合物分子结构的描述符,并建立了线性模型。所建模型具有较好的预测能力,相关系数的平方的平均值达到0.8432。提供了一个预测此类化合物渗透性的简单、快速、有效方法。在第三章中,非线性方法应用于建立QSPR模型,主要包括以下几个方面的研究工作:(1)研究了79个杀虫剂在生物分配胶束液相色谱中的保留因子与5个分子描述符之间的关系,分别用HM和SVM方法建立了线性和非线性的QSPR模型。SVM模型的结果优于HM模型的结果,两种方法对测试集的均方根误差RMS分别为1.094和1.644,获得了令人满意的预测结果。(2)通过HM和SVM方法建立线性和非线性的QSPR模型,预测了217个烃类化合物在电解质溶液中的溶解度,仅用3个描述符就获得了精确的预测结果。为了与烃类化合物在纯水中的溶解度进行对比,相同的参数用于建立线性模型预测烃类化合物在纯水中的溶解度,同样得到了精确的预测结果。以上研究表明本工作所建立的QSPR模型适用于预测烃类化合物在不同溶剂中的溶解度。(3)研究了两组多肽(不同实验条件下)在毛细管电泳中的有效迁移率,应用HM和RBFNN方法分别建立了线性和非线性的QSPR模型,RBFNN模型的结果略优于HM模型的结果。本工作所建立的两个模型表明:QSPR是一种有效的方法,它能预测不同实验条件下的多肽迁移率,同时也从分子水平上找到了与多肽的有效迁移率有关的结构特征。本工作提出了一种解决大分子问题的新思路。(4)预测了结构各不相同的121个卤代化合物、烷基苯和酚的生物富集因子。HM和RBFNN分别用来建立3个分子描述符和生物富集因子之间的线性和非线性定量关系模型。对于测试集,HM和RBFNN模型预测的相关系数R~2分别为0.888,0.923;均方根误差RMS分别为0.551,0.461。非线性的关系更准确地描述了121个有机污染物的生物富集因子和结构参数之间的关系。所建模型表明:从分子水平上识别和提供与非离子有机化合物的生物富集过程有关的结构特征,有助于提高我们对有机化合物生物富集机理的认识。