论文部分内容阅读
摘要:对于19个1,1-二苯基乙烯衍生物,分别采用人工神经网络(网络结构为3-7-1)和线性回归分析方法,建立了其抗雌激素活性/C与扩展的引力指数Go、17号氢原子的净电荷Q和24号氧原子与17号氢原子间库仑力KL之间的QSAR模型,ANN模型的相关系数R=0.9999。标准偏差SD=3,058 88E-4;MLB.模型的相关系数K=0.966 0,标准偏差SD=0.10t 0。结果表明人工神经网络是一种比较精密的拟合方法,具有良好的预测效果。
关键词:人工神经网络;定量结构活性关系;1,1-二苯基乙烯衍生物
中图分类号:0641 文献标识码:A 文章编号:1000-8136(2009)26-0093-03
乳腺癌是女性常见恶性肿瘤之一,抗雌激素类药是其内分泌疗法的常用药物,因而开发新型高效的抗雌激素药物已成为一大热点。Gilbertm等通过实验发现1,1-二苯基乙烯衍生物在MVLN细胞中有一定的抗雌激素活性,具有开发为抗雌激素药物的潜能。文献在此基础上主要采用量化计算方法和拓扑指数法对其进行研究,得出1,1-二苯基乙烯衍生物在OOC下与小牛子宫雌激素受体间亲合力大小与扩展的引力指数(Go)、17号氢原子的净电荷(O)和24号氧原子与17号氢原子间库仑力(KL)较好的相关性。人工神经网络(artificial neural network,ANN)是一种信息处理技术,具有很强的非线性处理、自适应学习、自组织调整及容错抗噪声能力,通过学习确定输入与输出间的复杂的内部联系,实现对样本的识别与分类,对活性的估计与预测。本文应用人工神经网络方法,对1,1-二苯基乙烯衍生物采用3个主要的影响参数G0、O和KL进行了定量构效关系(quantitativestructure-activity relationships,QSAR)研究,并与多元线性回归法(multiple linear regression,MLR)即经典的Hanseh分析方法进行比较,结果表明人工神经网络具有更好的性能,有利于辅助完成新药活性预测及分子设计。
1 原理与算法
误差反向传播(backpropagafion,BP)模型是应用最广的一种神经网络。它由输入层、隐含层和输出层组成,各层次的神经元之间形成全互连接,各层次内的神经元之间没有连接见图1。每层由若干个神经元(又叫节点)组成,每个神经元包含一定信息量,相邻两层神经元之间通过连接权重相互联接,然后通过输入输出转换函数输出信息见图2。
BP神经网络学习算法的学习过程由正向传播和反向传播两个过程组成。在正向传播过程中,输入信息由输入层经隐含层传向输出层,如果在输出层不能得到期望的输出,则转入反向传播,将误差信息沿原来的连接通路返回,修改各层节点间的连接权值,如此往复调整网络参数,使之误差函数达到极小为止。当训练结束时,将学习得到的规则表达在网络的权值中,利用这组权值,根据样本的输入特性参数,迅速输出预测结果。
2 数据与软件
本文采用文献叫报道的19个1,1一二苯基乙烯衍生物的3种结构参数(Go、Q和KL)和活性数据见表1,其分子结构见图3所示。抗雌激素活性以/C(C为经0.1nM雌二醇诱导过的荧光素酶失去50%的活性所需浓度)表示。首先从16个化合物样本中随机选取30个化合物作为训练样本集,用人工神经网络建立QSAR模型,然后用3个化合物作为预测样本集以检验模型的预测能力。采用自编的人工神经网络程序,在PD3.40GHz,2.00G内存的PC机上进行运算。
3 网络参数与模拟结果
对于1,1-二苯基乙烯衍生物亲合力的实验数据进行学习时采用ANN(3-7-1)网络结构,通过跟踪学习过程发现当学习速率等于0.7、动量因子等于0.8时,ANN具有良好的学习效果和收敛速度。19个样本的学习结果见表2,其中所列前15个化合物作为训练样本集,用BP人工神经网络建立QSAR模型,最后4个化合物为预测样本集,计算得出训练样本和预测样本的相关系数R分别为09999和0.9996,标准偏差SD分别为0.0027和0.011 5,说明该模型具有较好的预测能力。经BP人工神经网络算法得出的模拟值与实验值之间的残差比较小,19个化合物的残差值均小于0.10,其绝对值的平均值为0.004 2。由于ANN具有非线性处理及容错抗噪声能力和优势,其计算值与实验值更为接近。
4 ANN与MLR比较
采用多元线性逐步回归(MLt)分析法,对19种1,1-二苯基乙烯衍生物在4℃时与小牛子宫雌激素受体的亲合力进行了QSAR研究,获得了回归方程:
10g1/C=1.586-2.122Go+37.198Q-4.383KL
R=0.966,R’=0.932,RMS=0.1010,N=19
(1)式中G。为扩展的引力指数;Q为17号氢原子的净电荷;KL为24号氧原子与17号氢原子间库仑力;R为相关系数,N为样本数。
从回归方程(1)中可以看出,影响1,1-二苯基乙烯衍生物抗雌激素活性的3个因素是Go、O和KL,按统计学公式,可以得到这3个参量的标准系数分别为0.659、0.393和-0.263,即Go对其抗雌激素活性的影响最大,其次是Q,而KL的影响最小。Go与1,1-二苯基乙烯衍生物的抗雌激素活性高度相关,而Go不仅反映了分子中原子的电子分布,而且主要表征了分子的体积效应,即分子的体积越大,衍生物的抗雌激素活性越小,表明在进行抗雌激素药物设计时应尽量避免大取代基的引入;O越正,衍生物抗雌激素活性越大,表明Y取代基为吸电子基团对衍生物的抗雌激素活性有利;而KL的绝对值越大,即24号氧原子和17号氢原子间相互吸引力越大,衍生物抗雌激素活性越大。
利用回归分析方法对19个化合物建立的模型得出相关系数R=0.966 0,标准偏差SD=0.101 0;对这19个化合物用ANN法计算的相关系数R=0.999 9,标准偏差SD=3.058 88E-4,结果明显优于回归法。图4表示对19个1,1-二苯基乙烯衍生物模拟的计算值与实验值的相关情况,可以看出,图中大部分数据位于过原点45。线的附近,并无明显异常点,表明影响1,1-二苯基乙烯衍生物在MVLN细胞中的抗雌激素活性大小的因素不仅复杂而且可能是非线性关系。
5 结论
上述QSAR模型的建立与分析结果均表明人工神经网络具有良好的拟合精度和较强的预测能力,特别适合处理复杂的非线性问题。由此可见,ANN作为一种有效的化学计量学工具。在QSAR研究中,特别是生物活性与描述参数变量之间隐含某些复杂的内在联系时将发挥重要作用。新颖的人工神经网络较传统的多元回归有许多优越之处,将成为定量构效关系及药物设计研究的有效方法。
关键词:人工神经网络;定量结构活性关系;1,1-二苯基乙烯衍生物
中图分类号:0641 文献标识码:A 文章编号:1000-8136(2009)26-0093-03
乳腺癌是女性常见恶性肿瘤之一,抗雌激素类药是其内分泌疗法的常用药物,因而开发新型高效的抗雌激素药物已成为一大热点。Gilbertm等通过实验发现1,1-二苯基乙烯衍生物在MVLN细胞中有一定的抗雌激素活性,具有开发为抗雌激素药物的潜能。文献在此基础上主要采用量化计算方法和拓扑指数法对其进行研究,得出1,1-二苯基乙烯衍生物在OOC下与小牛子宫雌激素受体间亲合力大小与扩展的引力指数(Go)、17号氢原子的净电荷(O)和24号氧原子与17号氢原子间库仑力(KL)较好的相关性。人工神经网络(artificial neural network,ANN)是一种信息处理技术,具有很强的非线性处理、自适应学习、自组织调整及容错抗噪声能力,通过学习确定输入与输出间的复杂的内部联系,实现对样本的识别与分类,对活性的估计与预测。本文应用人工神经网络方法,对1,1-二苯基乙烯衍生物采用3个主要的影响参数G0、O和KL进行了定量构效关系(quantitativestructure-activity relationships,QSAR)研究,并与多元线性回归法(multiple linear regression,MLR)即经典的Hanseh分析方法进行比较,结果表明人工神经网络具有更好的性能,有利于辅助完成新药活性预测及分子设计。
1 原理与算法
误差反向传播(backpropagafion,BP)模型是应用最广的一种神经网络。它由输入层、隐含层和输出层组成,各层次的神经元之间形成全互连接,各层次内的神经元之间没有连接见图1。每层由若干个神经元(又叫节点)组成,每个神经元包含一定信息量,相邻两层神经元之间通过连接权重相互联接,然后通过输入输出转换函数输出信息见图2。
BP神经网络学习算法的学习过程由正向传播和反向传播两个过程组成。在正向传播过程中,输入信息由输入层经隐含层传向输出层,如果在输出层不能得到期望的输出,则转入反向传播,将误差信息沿原来的连接通路返回,修改各层节点间的连接权值,如此往复调整网络参数,使之误差函数达到极小为止。当训练结束时,将学习得到的规则表达在网络的权值中,利用这组权值,根据样本的输入特性参数,迅速输出预测结果。
2 数据与软件
本文采用文献叫报道的19个1,1一二苯基乙烯衍生物的3种结构参数(Go、Q和KL)和活性数据见表1,其分子结构见图3所示。抗雌激素活性以/C(C为经0.1nM雌二醇诱导过的荧光素酶失去50%的活性所需浓度)表示。首先从16个化合物样本中随机选取30个化合物作为训练样本集,用人工神经网络建立QSAR模型,然后用3个化合物作为预测样本集以检验模型的预测能力。采用自编的人工神经网络程序,在PD3.40GHz,2.00G内存的PC机上进行运算。
3 网络参数与模拟结果
对于1,1-二苯基乙烯衍生物亲合力的实验数据进行学习时采用ANN(3-7-1)网络结构,通过跟踪学习过程发现当学习速率等于0.7、动量因子等于0.8时,ANN具有良好的学习效果和收敛速度。19个样本的学习结果见表2,其中所列前15个化合物作为训练样本集,用BP人工神经网络建立QSAR模型,最后4个化合物为预测样本集,计算得出训练样本和预测样本的相关系数R分别为09999和0.9996,标准偏差SD分别为0.0027和0.011 5,说明该模型具有较好的预测能力。经BP人工神经网络算法得出的模拟值与实验值之间的残差比较小,19个化合物的残差值均小于0.10,其绝对值的平均值为0.004 2。由于ANN具有非线性处理及容错抗噪声能力和优势,其计算值与实验值更为接近。
4 ANN与MLR比较
采用多元线性逐步回归(MLt)分析法,对19种1,1-二苯基乙烯衍生物在4℃时与小牛子宫雌激素受体的亲合力进行了QSAR研究,获得了回归方程:
10g1/C=1.586-2.122Go+37.198Q-4.383KL
R=0.966,R’=0.932,RMS=0.1010,N=19
(1)式中G。为扩展的引力指数;Q为17号氢原子的净电荷;KL为24号氧原子与17号氢原子间库仑力;R为相关系数,N为样本数。
从回归方程(1)中可以看出,影响1,1-二苯基乙烯衍生物抗雌激素活性的3个因素是Go、O和KL,按统计学公式,可以得到这3个参量的标准系数分别为0.659、0.393和-0.263,即Go对其抗雌激素活性的影响最大,其次是Q,而KL的影响最小。Go与1,1-二苯基乙烯衍生物的抗雌激素活性高度相关,而Go不仅反映了分子中原子的电子分布,而且主要表征了分子的体积效应,即分子的体积越大,衍生物的抗雌激素活性越小,表明在进行抗雌激素药物设计时应尽量避免大取代基的引入;O越正,衍生物抗雌激素活性越大,表明Y取代基为吸电子基团对衍生物的抗雌激素活性有利;而KL的绝对值越大,即24号氧原子和17号氢原子间相互吸引力越大,衍生物抗雌激素活性越大。
利用回归分析方法对19个化合物建立的模型得出相关系数R=0.966 0,标准偏差SD=0.101 0;对这19个化合物用ANN法计算的相关系数R=0.999 9,标准偏差SD=3.058 88E-4,结果明显优于回归法。图4表示对19个1,1-二苯基乙烯衍生物模拟的计算值与实验值的相关情况,可以看出,图中大部分数据位于过原点45。线的附近,并无明显异常点,表明影响1,1-二苯基乙烯衍生物在MVLN细胞中的抗雌激素活性大小的因素不仅复杂而且可能是非线性关系。
5 结论
上述QSAR模型的建立与分析结果均表明人工神经网络具有良好的拟合精度和较强的预测能力,特别适合处理复杂的非线性问题。由此可见,ANN作为一种有效的化学计量学工具。在QSAR研究中,特别是生物活性与描述参数变量之间隐含某些复杂的内在联系时将发挥重要作用。新颖的人工神经网络较传统的多元回归有许多优越之处,将成为定量构效关系及药物设计研究的有效方法。