论文部分内容阅读
从分子结构表征和定量构效关系(quantitative structure-activity relationship, QSAR)建模方法与技术这两个关键内容出发,对48 个苦味二肽、58 个血管收缩素转化酶抑制剂、31 个血管舒缓激肽促进剂、21 个后叶催产素、152 个HLA-A*0201限制性CTL表位和34个抗菌肽进行了定量构效关系研究以及建模方法与技术的比较研究。分子结构表征是定量构效关系研究的一个关键环节。结构描述子能否反映分子与生物活性相关的结构信息,决定了定量构效关系研究的成败。文中提出的两种氨基酸结构描述子矢量VSTV 和VHSE 均来源于主成分特征提取的思路。其中VSTV(principal component score vector of structural and topological variables)来源于20 种天然氨基酸的25 种拓扑结构信息,并通过主成分分析而产生。由于VSTV 是基于氨基酸的结构和拓扑性质,因此具有计算方法简便,不依赖实验数据以及拓展性能好等优点。VHSE(principal component score vector of hydrophilicity, steric, and electronic properties)则是来源于20 种天然氨基酸的50 种物理化学性质,通过对其中18 个疏水性质,17 个立体性质和15 个电性性质分别进行主成分分析而产生。其中VHSE1、VHSE2代表氨基酸的疏水性特征;VHSE3、VHSE4代表氨基酸的立体特征;VHSE5~VHSE8则代表氨基酸的电性特征。与z 标度以及其它氨基酸描述子相比,VHSE 具有物化意义明确、信息量大和结果更易解释等特点。从上述的6个肽体系的构效关系研究结果看,VSTV 和VHSE 能较好地表征肽分子与生物活性相关的结构信息,并取得了与已有文献结果相当或更优的结果。建模方法与技术是定量构效关系研究的一个重要内容。在进行定量构效关系研究的同时,详细地比较分析了多元线性回归(multiple linear regression, MLR)、主成分回归(principal component regression, PCR)、偏最小二乘回归(partial least squares, PLS)、人工神经网络(artificial neural network, ANN)和支持向量机(support vector machine, SVM)在线性或非线性体系的应用,其间包含了变量筛选和模型验证方法的研究和讨论。研究结果显示:经典的MLR 在满足相关条件的前提下,通常可以取得较好的结果。PCR 和PLS 可以较好地解决变量数较多且存在多重共线性的情况,并且在大多数情况下PLS 结果要优于PCR。当结构描述子与生物活性存在非线性的关系时,BP-ANN 是一种较好的选择。文中由于采用了验证集对过拟合现象进行了适当控制,使得BP-ANN 的预测能力有了较大幅度的提高。SVM 作为一种新的机器学习方法,在本文的构效关系研究中亦取得了较优的结果,尤其是SVM能较好的解决小样本、非线性、高维数和局部最小等实际问题,并且从原理上解