论文部分内容阅读
计算机辅助药物设计已应用于药物开发的各个阶段,为新药研发提供了有力的工具。然而,目前计算机辅助药物设计的成功率仍然较低,虚拟筛选所得的候选药物在后续的实验测试中常常显示不出预期的生物活性或具有严重的毒性作用。提高虚拟筛选鉴定有活性的候选药物的能力(即提高虚拟筛选的效率)和化合物毒性预测的准确率是当前计算机辅助药物设计的关键。因此,本论文使用机器学习方法,基于现存的大量实验数据,一方面,以流感病毒神经氨酸酶为研究对象,从基于结构的虚拟筛选和基于配体的虚拟筛选两个方面研究提高流感病毒神经氨酸酶抑制剂虚拟筛选效率的新途径;另一方面,以目前最严重也最常见的化合物毒性作用—致癌性、致突变性和肝毒性为研究对象,建立新的具有更高准确率的有机化合物毒性预测模型。本论文建立的新模型将为药物研发早期阶段提供有用的工具,提高药物研发的效率。在基于结构的虚拟筛选中,打分函数用来估计化合物与靶点的结合亲和力,其准确性是影响虚拟筛选效率的关键因素之一。当前的打分函数都是通用打分函数,可以应用于所有药物靶点。然而每个药物靶点都具有不同的结构性质,针对特定的靶点建立特定的打分函数将可能获得更高的虚拟筛选效率。因此,本研究使用随机森林算法建立了针对流感病毒神经氨酸酶的特异性打分函数(RF-NA-Score)。在五折交叉验证中RF-NA-Score给出的结合亲和力预测值与实验值的皮尔森相关系数为0.707,均方根误差为1.46,准确性高于基于随机森林的通用打分函数(RF-Score)。进一步分析显示,使用RF-NA-Score对分子对接结果进行重打分可以显著提高虚拟筛选效率。将使用RF-NA-Score作为打分函数的虚拟筛选策略应用于SPECS数据库的虚拟筛选,获得了两个具有新型结构骨架的神经氨酸酶抑制剂。上述结果表明,RF-NA-Score可以提高神经氨酸酶抑制剂虚拟筛选的效率,并成功筛选出新型神经氨酸酶抑制剂。在基于配体的虚拟筛选中,通常建立将化合物的结构与其生物活性连接起来的定量构效关系(quantitative structure-activity relationships,QSAR)模型。目前的研究所建立的QSAR模型并没有区分神经氨酸酶的亚型。由于不同亚型的催化中心结构有一定差别,其抑制剂的结构特征也有所差别。因此,有必要建立仅针对一类神经氨酸酶抑制剂的QSAR模型,以提高虚拟筛选的效率。另外,集成学习可以将一系列使用不同方法建立的机器学习模型融合形成一个集成模型,通常获得的集成模型具有更高的预测能力。因此,本研究采用集成学习方法建立了针对group 2神经氨酸酶抑制剂的QSAR模型。预测性能最高的集成模型为Ensemble-Top12(融合了12个机器学习模型),在五折交叉验证中,其AUC(受试者工作特征曲线下面积,AUC值在0到1之间,值越大说明模型分类能力越强)为0.976,准确率为90.7%。而本研究建立的不区分神经氨酸酶亚型的QSAR模型中AUC最高的为RF-RFE,其AUC为0.942,准确率为87.0%。可以看出本文构建的针对group 2神经氨酸酶抑制剂的QSAR模型获得了更高的预测能力。学术界已经开发了多种使用有机化合物的结构预测其毒性作用的工具,但这些工具的准确率仍然较低。本研究应用集成学习方法,建立了具有更高准确性的有机化合物致癌性、致突变性和肝毒性预测模型。以CPDB数据库中1003个已知致癌性的有机化合物作为训练数据集,以ISSCAN数据库中40个不与训练集重复的化合物作为外部测试集,建立并检测了预测有机化合物致癌性的集成模型。其中Ensemble XGBoost具有最好的预测性能,其在五折交叉验证中的AUC为0.765,准确率为70.1%,在外部测试集验证中AUC为0.803,准确率为70.0%。Ensemble XGBoost的AUC和准确率高于以同样训练集建立的36个机器学习模型,说明集成学习方法可以提高致癌性预测模型的性能。与近年来文献中报道的致癌性预测方法相比,Ensemble XGBoost获得了较高的AUC和准确率。以Ames致突变性基准数据集中6305个有机化合物作为训练数据集,以CCRIS、NTP以及ISSTY数据集中1178个化合物作为外部测试集,建立并测试了预测有机化合物致突变性的集成模型。在建立的一系列集成模型中,预测性能最好的是Ensemble-Top17,其在五折交叉验证中的AUC为0.899,准确率为82.7%,在外部测试集验证中AUC为0.894,准确率为82.1%。与文献中报道的预测模型相比,Ensemble-Top17具有更高的AUC和准确率。以从文献中收集的1241个已知肝毒性的有机化合物作为训练数据集,以LTKB-BD数据库中286个化合物作为外部测试集,建立并测试了预测有机化合物肝毒性的集成模型。预测性能最好的是Ensemble-Top6,其在五折交叉验证中的AUC为0.763,准确率为70.9%,在外部测试集中的AUC为0.912,准确率为86.4%。与文献中报道的肝毒性预测模型相比,Ensemble-Top6的AUC和准确率都较高。此外,为了方便本研究开发的模型的使用,我们为有机化合物致癌性、致突变性和肝毒性集成模型分别建立了名为CarcinoPred-EL、MutagenPred-EL和LiverToxPred-EL的Web服务器。综上所述,本文进行了以下创新性的工作:(1)开发了新的流感病毒神经氨酸酶特异性打分函数,利用此打分函数设计了更有效的虚拟筛选策略;(2)建立了针对group 2神经氨酸酶抑制剂的QSAR模型,获得了更高的预测能力;(3)开发了具有更高准确性的有机化合物致癌性、致突变性和肝毒性预测模型。