论文部分内容阅读
肿瘤(Tumor)是由遗传易感因素和内、外环境致癌因素多阶段、长时间相互作用的结局。恶性肿瘤是危害人类健康的最严重疾病之一,肿瘤的预防和控制是当今各国面临的严峻公共卫生问题。长期以来,人类致力于肿瘤药物的研发,海洋抗肿瘤活性药物几十年的发展已充分展现了它的巨大潜能,定量构效关系(Quantitative Structure-Activity Relationship,QSAR)研究是在一系列已知生物活性的化合物中寻找结构与其活性之间的量变关系,进而预测新的相关化合物活性,其在发掘及挑选具有明显生物活性的药物、辅助明确药物作用机制等方面都具有指导意义。目的1.通过海洋物质的QSAR研究,筛选出对抗肿瘤活性具有统计学意义的分子描述符并分析其理论意义,为新药开发及指导新物质的合成提供理论依据。2.尝试用不同方法构建QSAR模型,经分析比较获得最优模型,以期在模型的应用域范围内对新化合物的未知活性值进行预测。方法本论文以42个海洋Fascaplysin类吲哚碱物质和23种海洋Meridine类似物为研究对象,分别用指示指数及分子电性距离矢量指数等为分子符表示两种海洋类物质的分子结构,用多重线性回归法(Multiple Linear Regression,MLR)、逐步回归法、回归树及支持向量机算法(Support vector machine,SVM)进行变量筛选并建模,构建两种海洋类化合物抑制肿瘤细胞增殖活性的半抑制浓度(half maximal inhibitory concentration,IC50)与分子结构之间的QSAR模型,用训练数据集实验值和预测值之间的拟合相关系数R2、留一法交互检验(Leave-One-Out,LOO)系数Q2LOO、测试集实验值和预测值之间的拟合系数(R2ext)、外部预测的标准偏差(Standard Deviation of External Prediction,SDEP ext)和预测均方根误差(Root-Mean-Square Error of Prediction,RMSEP)评价模型的可靠性、鲁棒性、稳定性及内外部预测能力。比较各模型的评价参数选出最优模型,在模型的应用域范围内,用最优模型对化合物的未知活性值进行预测。结果42个海洋Fascaplysin类吲哚碱物质的变量筛选得到8个分子描述符X3、X4、X8、X9、X10、X13、X16和X19,线性模型统计量F=3.914,对应的P值为0.004552,说明模型具有统计学意义,其决定系数R2=0.7632,表明模型拟合较好。基于回归树对数据建立非线性模型,模型中纳入了X3、X8、X9、X10、X16和X19这6个变量,它们对于此次决策结果的贡献次数分别为:X3是4次;X8和X10均为2次;X9、X16和X19均为1次。MLR模型的内部检验系数R2和Q2LOO分别为0.7632和0.7501;回归树模型R2和Q2LOO分别为0.8078和0.7985,且两个模型的R2大于Q2但均未超过25%。模型外部检验结果显示,MLR模型除了28号化合物的预测结果严重偏离实验值外,其他9个化合物的残差值范围为(-0.68001.0131);回归树模型10个化合物的残差值范围为(-0.28640.6572),未出现严重偏离实验值的预测数据。两种建模方法的外部预测标准偏差SDEPext分别为13.2913和0.2983。逐步回归法筛选得到主要影响海洋meridine类似物抑制体外A549细胞系IC50值的关键分子描述符为AATSC5p、GATS3p、BCUTc-1l、SPC-6、minHBa、MLFERA和MATS1i。建立并检验模型,参数结果显示,SVM算法所建立6种模型的R2和Q2LOO均大于0.6,但R2均大于Q2LOO且超过了25%,表现出了明显的过拟合现象。MLR法建立的线性模型内外部检验的参数R2、Q2LOO、R2ext和RMSEP分别为0.9985、0.8884、0.8792及0.1243,R2-Q2/Q2的值为12.39%,即R2大于Q2LOO但未超过25%,模型未出现过拟合,模型可用。用MLR模型预测11种未知活性的meridine类似物的pIC50值,除22号化合物外,其他预测值分布较集中且相对均匀。结论1.主要影响海洋fascaplysin类化合物抑制周期蛋白依赖性激酶4的活性值IC50的分子描述符为X3、X8、X9、X10、X16和X19,其中变量X3和X16的系数是正值,表示该描述子与生物活性pIC50正相关;变量X8、X9、X10和X19的系数为负值,即该分子描述符与生物活性pIC50是负相关;指示描述符X19表示二联苯中苯环的相互位置,对位位置连接苯环时对增加化合物活性有利。2.主要影响海洋meridine类似物抑制体外A549细胞系IC50值的关键分子描述符为AATSC5p、GATS3p、BCUTc-1l、SPC-6、minHBa、MLFERA和MATS1i,其中MATS1i描述符的系数为正,即描述符MATS1i的存在能够提高meridine类似物的抗肿瘤活性值,因此,在进一步的药物研发及合成中靶向引进MATS1i描述子,可有效提高物质的抗肿瘤性能。3.MLR、回归树和SVM算法均可用于QSAR模型的建立,数据挖掘算法回归树和SVM是解决QSAR建模中分子描述符之间复杂非线性关系的较好方法,但如果变量间仅存在简单线性关系时,MLR仍是解决此类问题的首选。