论文部分内容阅读
目的:在过去的几十年中,中草药一直被人们认为是天然安全、毒副作用小的药物,因此得到了越来越多的关注。追溯到2500年前,中草药在抵御各种疾病、维护人们的健康甚至维持整个中华民族的健康医疗体系方面都发挥了不可替代的作用。尽管中草药在临床上取得了很长时间的成功,然而,近年来却涌现出越来越多的中草药肝毒性案例的相关报道,引发了广泛的担忧。因此,识别中草药中潜在的肝毒性成分及探索中草药的肝毒性机制迫在眉睫。这项研究的目的在于通过构建肝毒性虚拟预测模型来识别中草药中潜在的肝毒性成分及采用系统药理学的方法来探索中草药的肝毒性机制,以加速药物的研发进程,降低开发成本,为在临床用药中提供一定的警示作用。方法:首先,从三个公认的数据库,即SIDER(Side Effect Resource),OFFSIDES和CTD(Comparative Toxicogenomics Database)中搜集肝毒性化合物。通过去重,共获得702个肝毒性化合物,再去PubChem下载其对应的SMILE格式信息。随后,从这些肝毒性化合物中随机抽取100个活性化合物在RADER网上数据库中生成相应的decoys数据集(非肝毒性化合物),共获取了3927个decoys。其中,非活性化合物与活性化合物的相似度为0.75,且只保留分子量在100至800之间的化合物。最后,得到一个包含2476个化合物的大数据集,这当中涵盖619个肝毒性化合物和1857个非肝毒性化合物。所有化合物包括非活性化合物与活性化合物被随机打乱,按照活性化合物:非活性化合物=1:3的比例将这些化合物分成相应的训练集和测试集。其次,应用四种机器学习算法包括人工神经网络(ANN),支持向量机(SVM),随机森林(RF)和k-最近邻法(kNN)并结合四套不同的分子指纹,分别是Estate,MACCS,PubChem及SubFP分子指纹初步构建了16个单一的分类模型。所有模型均采用五倍交叉验证和测试集验证进行预测能力的评估。经过系统性评价,筛选出了表现最佳的四个单一分类模型。接着,为了进一步提高模型的预测能力,本研究引入了一致性打分预测(consensus prediction)的方法来整合这四个表现最佳的单一模型,得到了相应的四个组合模型,分别为C-1、C-2、C-3和C-4。在对四个组合模型进行相应评价后,我们发现C-3模型的表现要优于其他组合模型,此外,本论文还对比了C-3模型与四个最佳的单一模型的表现,结果显示C-3的MCC值超过任一单一模型。为了比较组合模型C-3与Discovery Studio(DS)软件中肝毒性预测模块的表现,首先从DrugBank数据库中下载了184个被撤销的上市药物,在进一步搜索其撤销原因后,发现其中有11个是因为明确的肝毒性而被撤销的药物。基于DrugBank数据库这11个明确有肝毒性药物的预测结果,研究发现组合模型C-3的表现要优于商业软件DS。紧接着,为了识别中草药中潜在的肝毒性成分,组合模型C-3被应用于预测药物代谢动力学、药物化学和药物一靶标蛋白网络一疾病网络的中药系统药理学数据库和分析平台(TCMSP)。最后,组合模型共识别出来5666个潜在的肝毒性化合物。在整合出排名位于前十的肝毒性药材后,计算其包含的肝毒性化合物共1042个。不仅如此,针对这些肝毒性成分,我们还对其做了骨架分析,聚类得到十组具有代表性的骨架结构。为了阐释中草药产生肝毒性的相关机制,本研究也对位于前十的肝毒性药材进行了系统药理学分析,并选取了度数(degree)位于前二十的靶标进行KEGG通路富集。通过收集药材对应的化合物及化合物对应的靶标,构建药材-药材及化合物-靶标等不同网络来说明中草药引发肝毒性的作用方式。最后,本论文选取了柴胡作为典型案例分析来阐明中草药肝毒性的相关作用机制。通过整合柴胡的肝毒性靶标及非肝毒性靶标,来发现其新的作用方式。结果:构建了组合模型来预测药物导致的肝毒性,并验证出最好的组合模型为C-3。接着,应用C-3模型来预测TCMSP数据库。最后,模型共识别出5666个潜在的肝毒性化合物。本研究对这些潜在的肝毒性化合物进行了整合,整理出来排名位于前十的药材(共1042个肝毒性化合物),它们分别是柴胡、金银花、银杏叶、没药、川芎、麻黄、人参、灵芝、辣椒、丹参。本论文对每味药材的肝毒性化合物个数在每味药材的总化合物中的比例及每味药材的肝毒性化合物个数在总的肝毒性化合物中的比例进行了计算。这当中,柴胡包含的肝毒性化合物最多(141)。针对这些肝毒性成分,本研究对其进行了聚类分析,共得到十组具有代表性的骨架结构。为了探究前十味药材在成分方面是否具有相似性,研究过程中还对这十味药材进行了系统药理学分析,发现这些药材之间确实有大量重复的成分。不仅如此,本论文对这些肝毒性成分做了进一步的频次分析,列出了频次较高的代表性化合物。此外,选取了在化合物-靶标网络图中位于前二十的靶标(度数≥28)进行了KEGG通路富集,得到了7条肝毒性相关通路,其中有5条已被文献验证。最后,以柴胡为案例分析来揭示肝毒性的作用机制,这当中我们发现了其新的作用机制。结论:在本研究中,基于表现最佳的四个单一分类模型所整合出来的组合模型有助于提高模型的预测能力及相关表现。在经过系统性评价及相应验证之后,本研究发现组合模型C-3表现最优。接着,C-3模型被应用于预测TCMSP数据库,模型共识别出了5666个潜在的肝毒性化合物。最后,本论文还整合出了肝毒性化合物排名位于前十的药材,并对其进行了系统药理学分析以阐释中草药的肝毒性作用机制。综上所述,这些研究结果为肝毒性的预测提供了新策略,将有利于促进新药的发现及进展。