论文部分内容阅读
定量构效关系(Quantitative Structure-Activity Relationship,QSAR)研究是应用各种统计学方法研究分子的结构和其生物活性之间的定量关系,一方面可以预测未知分子的活性,另一方面还可以通过改变分子内部结构以达到提高活性的目的,从而为药物分子设计提供理论依据。近半个世纪以来,QSAR研究对药物化学及药物设计的发展起了巨大的推动作用,已经成为研究分子理化性质与生物活性以寻求分子解释的所有学科领域中一个强有力的工具。
过去的几十年间,QSAR研究得到了飞速的发展,涉及到从计算描述符到建立模型并进行预测之间的每一个步骤。然而,对于自变量的选择却始终没有一个可以快速有效的选出对活性影响最大的自变量并建立可靠的模型的方法。因此,本文从最传统的逐步回归法出发,利用最常见的回归建模方法建立模型,并以最常用的评价指标来选择自变量。此外,还将刚刚报道的指示向量选择法与逐步回归法和遗传算法相结合,得到了更好的自变量选择法。
第一章简述了QSAR研究的原理、进展及主要步骤,交代了本论文研究的主要内容及其意义。
第二章介绍了逐步回归法(SR)的原理,并从两个方面进行了改进:一方面是自变量添加和删除的标准,增加了模型内部验证的Q2;另一方面是建模方法,增加了偏最小二乘回归法(PLSR)。并利用该算法对几个数据集进行了处理,得到了满意的结果。
第三章详细介绍了指示向量选择法(OPS),并利用该算法对几个数据集进行了处理,结果优于文献报道。通过比较不同指示向量选择的结果,回归向量(REG)最好,说明REG确实是一个较好的指示向量,能够反映自变量对活性的影响。
第四章分析了OPS算法的缺点,并分别利用逐步回归法(SR)和遗传算法(GA)对该算法进行了改进,最后对几个数据集进行了测试,结果表明SR改进的OPS算法对自变量的选择更有效。