论文部分内容阅读
定量结构活性相关性(quantitative structure-activity relationship, QSAR)研究是目前国际上比较活跃的研究领域,它的研究范围涵盖生物、医学、化学、农业以及环境等领域。QSAR研究的主体部分是QSAR模型的建构,径向基函数网络(radial basis function network, RBFN)是目前被广泛应用于QSAR研究中的一种建模方法。其以简单的网络结构,优良的逼近性能而优于其他方法,日益引起学者们的广泛关注。然而,径向基函数网络也存在一些缺点,即,网络容易陷入过拟合和局部最优,从而使得其建立的模型泛化能力较差。本文针对径向基函数网络的优缺点以及如何改进其建模性能做了两个方面的工作:(1)结合回归树(regression tree, RT)与杂交粒子群优化算法(hybrid particle swarm optimization, HPSO)来自适应构建RBFN,发展了一种新型的QSAR建模方法,即,HPSORTRBFN。在这个方法中,用离散的PSO方法来得到合适大小的RT,并将得到树中的分枝变量作为径向基函数网络的输入层,树的每一个叶节点决定网络的一个隐节点的中心。同时,网络的半径和权重用连续的PSO方法来自动优化。用新提出的方法来对1-[(2-羟乙氧基)甲基]-6-(苯硫基)胸腺嘧啶(HEPT)系列化合物的HIV抑制活性和黄酮类衍生物的生物活性进行预测。所得实验结果表明,回归树和HPSO方法相结合能自适应构建一个全局最优的径向基函数网络,且HPSORTRBFN法的性能要明显优于传统的RBFN和RT。(2)在本章中,我们从另一个角度出发对RBFN’性能进行改善,提出了连续粒子群优化算法(PSO)用于构建基于偏最小二乘(partial least squares, PLS)的RBFN,即,PSORBFPLS法。该方法首先采用径向基函数对输入到隐含层的信息进行转换得到隐含层的输出,然后,用PLS来关联径向基单元的输出和化合物的活性。为了自适应调整原始变量的非线性转换,我们用PSO来优化RBFN结构中的中心和半径,PLS关联径向基单元输出和输出层时所需的隐变量个数由F-统计来自动确定。在论文中用两个QSAR化合物集合对新提出的算法进行性能测试,所得的结果表明:新提出的方法能有效的改善径向基函数网络的性能,并且能快速收敛到最优解,从而提供了更高的泛化能力。