论文部分内容阅读
分子结构表征是当代药物分子设计与药效评价中不可缺少的重要技术,现有的分子表征指数,如物理化学参数,量子化学参数,能量化参数和二维拓扑指数是不能直接区分立体异构。然而立体异构体通常存在物理化学和生物活性的不同。计算化学家正面临着预测立体异构(Stereomers/Stereoisomers)之间的生物活性的不同的挑战。因此在定量构效关系(QSAR)研究中急需发展立体结构化学定量构效关系模型(QSSAR)来要研究那些具有立体结构差异的分子的生物活性关系,建立结构?活性相关规律。作者针对原有基于不同类型原子间相互作用的分子电性距边矢量(Vmed)无法区分立体异构体的缺陷,提出一种新型的手性分子电性距边矢量(Vmedc)来编码分辨立体异构的结构化学信息,拓展Vmed的应有范围。通过对3组经典的检验手性描述子描述性能化合物集进行定量结构?活性相关研究,证明Vmedc是一种具有良好对立体异构的继续分辨性能,且与分子性质高度相关性的一种新型二维矢量结构描述子。在药物设计中,候选化合物常常是根据一定保守性药效团或相似性结构片段进行设计的,基于这一原则,选择这些保守性药效团或者相似性结构片段作为分子中各原子的投影参考面,以分子内原子间的弱相互作用作为分子结构特征的描述,并结合各种原子类型划分方案,提出用于表征有机药物分子的新型矢量型结构描述子——原子相互作用场映射矩阵(Pmaif)。通过不同类型有机分子结构,特别是具有立体结构特征的分子结构的QSAR/QSPR考察,证明Pmaif是一个能简单快速处理大量化合物分子结构,具有与分子结构三维特征描述子相媲美的一种新型分子结构矢量化描述子,它为分子结构的表征,特别是立体异构体的研究,提供了一个有效的潜在编码选择工具。本文的主要内容和研究成果如下:1.提出两个能够表征立体异构体的立体结构矢量描述子概念,建立以交互检验统计学参数为选择变量基础的最佳变量子集法(BVS),并利用BVS与其它回归/分类分析技术相结合,建立评价两个矢量描述子对各种分子立体结构分辨性能的研究方法。建立多元线性和支持矢量机为基础的回归/分类技术(MLR/SVM)研究立体结构矢量描述子与物质物理、化学、生物性质定量相关中变量选择、统计显著性考察及模型质量评价的方法。建立偏最小二乘法回归(PLS)的QSAR模型中最佳主成分选择、载荷矢量与原始描述子变量的相关分析和模型质量评价的方法。建立了应用主成分(PC)为变量的回归或分类技术发展QSAR相关模型分析,确认最佳影响主成份。2.Pmaif通过不同原子类型划分方案,投影扇区的不同划分大小,探求基于这些基本投影结构参数的分子结构改造与其属性变化模型关系。同时,针对利用VC++实现该算法的关键点——对原子连接环境的识别,采用回溯法(back-tracking)对其连接子结构的进行搜索判断,进而在分子矩阵分析系统中(ASMM)实现对该描述子的自动化计算。3.将Pmaif应用于检验描述子性能的31个甾体化合物的QSAR研究,通过对4种原子分类方案——HVmed-4、HVmedSP、HVmed-13和HEState,在不同的扇区数目(NPD)下分别进行优化建模,选择出最佳的原子分类方案和NPD数目——原子分类方案为HVmedSP,NPD为16。而三种弱相互作用项目共同作用的PLS模型对训练集的回归(R2)和交互检验的相关系数(Rcv2)以及测试集的均方差(RMSTs)分别为0.988,0.877和0.878。分析亦表明:分子内的立体相互作用项目是影响其活性的强效因素(0.980, 0.837和0.873),静电相互作用项目次之(0.806, 0.763和0.903),而分子内的疏水相互作用项目是影响最弱因素(0.913, 0.789和2.354)。通过与其它描述子建模方法的比较分析,充分说明该方法能够有效的提取影响分子属性的原子结构信息模式,是一种好的分子结构信息编码描述子方法。4.两个结构描述子——Vmedc和Pmaif被分别用于一个含5个手性碳原子的32个ACE抑制剂化合物集进行分类分析,取得优异结果。其中,由Vmedc编码的最佳分类模型为:采用BVS法筛选变量的SVM分类,其对训练集的回代(ACCTr)、交互检验(ACCc)和对测试集的总分类准确率(ACCTs)分别为:ACCTr=95.7%,ACCcv=95.7%和ACCTs=100%;而由Pmaif编码的最佳分类模型为:采用HVmedSP原子分类方案和NPD为8时的前向逐步判别分析模型,其对训练集的回代、交互检验和对测试集的总分类准确率均为100%,其中四个主成分被选入(PC1, PC6, PC8和PC14)。这些结果证明Vmedc和Pmaif均具有良好对立体异构的分辨率识别能力,它们是一个与分子立体结构与性质高度相关性的新型立体结构矢量描述子。5.进一步的,7对HPP手性衍生物和18个有机酸被选择检验Vmedc和Pmaif编码分子集的回归分析效果。采用Vmedc编码方法的回归分析中,HPP衍生物的最佳回归模型为:采用BVS方法筛选变量的MLR方法,R2和Rcv2分别为0.928和0.861;对手性有机酸的最佳回归模型为:采用BVS方法筛选变量的SVM回归模型,R2和Rcv2分别为0.756和0.601。而采用Pmaif编码方法的回归分析中,HPP衍生物的最佳回归模型为:采用HVmed13原子分类方案,NPD为2时,采用BVS方法筛选变量的SVM回归模型,其R2和Rcv2分别为0.992和0.968;对手性有机酸的最佳回归模型为:采用HEState原子分类方案和NPD为2,采用BVS方法筛选变量的SVM回归模型,R2和Rcv2分别为0.708和0.610。6.为进一步的检验Pmaif提取分子立体结构信息的有效性,利用Pmaif对两组乙酰胆碱的M和N受体的手性立体异构体进行QSAR研究。应用PLS回归技术,建立14对1,3-氧硫杂环戊的手性分子结构和45个3,8-二氮双环[4,2,0]辛烷类手性化合物的Pmaif描述子与生物活性的定量相关模型。对于28个1,3-氧硫杂环戊的手性样本的4项亲合性质,Pmaif的最佳原子分类方案为HVmedSP,NPD为2,最佳主成分数PC=15,亲合力主要与Pmaif的立体和静电相互作用矢量为强相关,模型4项亲和力的R2(Rcv2)分别为0.915(0.765)、0.946(0.930)、0.953(0.855)和0.946(0.831),预测RMSTs分别为0.717,0.941、0.621和0.721;对于45个样本的两个属性值,PC=16,最优原子分类方案为HEState,NPD为4,仅涉及立体相互作用矢量,R2(Rcv2)为0.743(0.586)和0.756(0.568),RMSTs为0.512和0.600。