流感病毒神经氨酸酶抑制剂的虚拟筛选与有机化合物毒性预测方法研究

来源 :辽宁大学 | 被引量 : 3次 | 上传用户:doni123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机辅助药物设计已应用于药物开发的各个阶段,为新药研发提供了有力的工具。然而,目前计算机辅助药物设计的成功率仍然较低,虚拟筛选所得的候选药物在后续的实验测试中常常显示不出预期的生物活性或具有严重的毒性作用。提高虚拟筛选鉴定有活性的候选药物的能力(即提高虚拟筛选的效率)和化合物毒性预测的准确率是当前计算机辅助药物设计的关键。因此,本论文使用机器学习方法,基于现存的大量实验数据,一方面,以流感病毒神经氨酸酶为研究对象,从基于结构的虚拟筛选和基于配体的虚拟筛选两个方面研究提高流感病毒神经氨酸酶抑制剂虚拟筛选效率的新途径;另一方面,以目前最严重也最常见的化合物毒性作用—致癌性、致突变性和肝毒性为研究对象,建立新的具有更高准确率的有机化合物毒性预测模型。本论文建立的新模型将为药物研发早期阶段提供有用的工具,提高药物研发的效率。在基于结构的虚拟筛选中,打分函数用来估计化合物与靶点的结合亲和力,其准确性是影响虚拟筛选效率的关键因素之一。当前的打分函数都是通用打分函数,可以应用于所有药物靶点。然而每个药物靶点都具有不同的结构性质,针对特定的靶点建立特定的打分函数将可能获得更高的虚拟筛选效率。因此,本研究使用随机森林算法建立了针对流感病毒神经氨酸酶的特异性打分函数(RF-NA-Score)。在五折交叉验证中RF-NA-Score给出的结合亲和力预测值与实验值的皮尔森相关系数为0.707,均方根误差为1.46,准确性高于基于随机森林的通用打分函数(RF-Score)。进一步分析显示,使用RF-NA-Score对分子对接结果进行重打分可以显著提高虚拟筛选效率。将使用RF-NA-Score作为打分函数的虚拟筛选策略应用于SPECS数据库的虚拟筛选,获得了两个具有新型结构骨架的神经氨酸酶抑制剂。上述结果表明,RF-NA-Score可以提高神经氨酸酶抑制剂虚拟筛选的效率,并成功筛选出新型神经氨酸酶抑制剂。在基于配体的虚拟筛选中,通常建立将化合物的结构与其生物活性连接起来的定量构效关系(quantitative structure-activity relationships,QSAR)模型。目前的研究所建立的QSAR模型并没有区分神经氨酸酶的亚型。由于不同亚型的催化中心结构有一定差别,其抑制剂的结构特征也有所差别。因此,有必要建立仅针对一类神经氨酸酶抑制剂的QSAR模型,以提高虚拟筛选的效率。另外,集成学习可以将一系列使用不同方法建立的机器学习模型融合形成一个集成模型,通常获得的集成模型具有更高的预测能力。因此,本研究采用集成学习方法建立了针对group 2神经氨酸酶抑制剂的QSAR模型。预测性能最高的集成模型为Ensemble-Top12(融合了12个机器学习模型),在五折交叉验证中,其AUC(受试者工作特征曲线下面积,AUC值在0到1之间,值越大说明模型分类能力越强)为0.976,准确率为90.7%。而本研究建立的不区分神经氨酸酶亚型的QSAR模型中AUC最高的为RF-RFE,其AUC为0.942,准确率为87.0%。可以看出本文构建的针对group 2神经氨酸酶抑制剂的QSAR模型获得了更高的预测能力。学术界已经开发了多种使用有机化合物的结构预测其毒性作用的工具,但这些工具的准确率仍然较低。本研究应用集成学习方法,建立了具有更高准确性的有机化合物致癌性、致突变性和肝毒性预测模型。以CPDB数据库中1003个已知致癌性的有机化合物作为训练数据集,以ISSCAN数据库中40个不与训练集重复的化合物作为外部测试集,建立并检测了预测有机化合物致癌性的集成模型。其中Ensemble XGBoost具有最好的预测性能,其在五折交叉验证中的AUC为0.765,准确率为70.1%,在外部测试集验证中AUC为0.803,准确率为70.0%。Ensemble XGBoost的AUC和准确率高于以同样训练集建立的36个机器学习模型,说明集成学习方法可以提高致癌性预测模型的性能。与近年来文献中报道的致癌性预测方法相比,Ensemble XGBoost获得了较高的AUC和准确率。以Ames致突变性基准数据集中6305个有机化合物作为训练数据集,以CCRIS、NTP以及ISSTY数据集中1178个化合物作为外部测试集,建立并测试了预测有机化合物致突变性的集成模型。在建立的一系列集成模型中,预测性能最好的是Ensemble-Top17,其在五折交叉验证中的AUC为0.899,准确率为82.7%,在外部测试集验证中AUC为0.894,准确率为82.1%。与文献中报道的预测模型相比,Ensemble-Top17具有更高的AUC和准确率。以从文献中收集的1241个已知肝毒性的有机化合物作为训练数据集,以LTKB-BD数据库中286个化合物作为外部测试集,建立并测试了预测有机化合物肝毒性的集成模型。预测性能最好的是Ensemble-Top6,其在五折交叉验证中的AUC为0.763,准确率为70.9%,在外部测试集中的AUC为0.912,准确率为86.4%。与文献中报道的肝毒性预测模型相比,Ensemble-Top6的AUC和准确率都较高。此外,为了方便本研究开发的模型的使用,我们为有机化合物致癌性、致突变性和肝毒性集成模型分别建立了名为CarcinoPred-EL、MutagenPred-EL和LiverToxPred-EL的Web服务器。综上所述,本文进行了以下创新性的工作:(1)开发了新的流感病毒神经氨酸酶特异性打分函数,利用此打分函数设计了更有效的虚拟筛选策略;(2)建立了针对group 2神经氨酸酶抑制剂的QSAR模型,获得了更高的预测能力;(3)开发了具有更高准确性的有机化合物致癌性、致突变性和肝毒性预测模型。
其他文献
自拓扑绝缘体概念提出以来,整个凝聚态物理学领域掀起了探索新拓扑材料的热潮。在具有拓扑性质的材料中,物质量子态的变化可以不发生朗道理论中的自发对称性破缺现象,而是产
阐述了会计中谨慎性原则的必要性及其运用以及运用,提出在进行会计核算时关注谨慎性原则的“度”。
当前我国正处在社会转型期,各种利益关系错综复杂,社会文明失范现象日益增多,对大学生的价值取向和行为选择产生了重要影响,因此需要对他们进行正确地价值观引领。在党中央的
利用量子力学的基本原理或物质的量子特性的通信技术称之为量子通信。它包括量子密码术、量子隐形传态、密集编码等。量子通信最突出的优势是拥有理论上的无条件安全性和高效性。基于此,量子通信在电信、国防等领域有很大的发展空间和市场价值。基于量子纠缠性质的隐形传态的基本过程是,首先,通信双方共同拥有量子纠缠态,然后进行量子关联测量,通过经典信道和适当的幺正变换操作,就可以实现未知量子信息的远距离传送。其具有速
长期以来脑膜被视为是仅具有保护作用的非神经组织,在结构和功能上与脑实质有本质的不同,但在上世纪90年代Mercier等应用形态学方法清晰地勾勒出柔脑膜细胞与脑实质内胶质细
文化人类学与社会学联系紧密,该门课程已在高校多学科课程设置中普遍存在。分析文化人类学与社会工作关系,结合教学内容设计,认识文化人类学课程在社会工作专业课程设置中的
曲柄连杆机构是柴油机的核心部件,决定柴油机工作性能好坏。对其主要零件常见缺陷进行了分析,提出了检查维修要点。
目的:帕金森病(Parkinson’s disease,PD)是一种常见的神经系统变性疾病,其病理特征是黑质区多巴胺能神经元的大量缺失。这种严重威胁老年人的健康、影响其生活质量的疾病的
《全日制义务教育普通高级中学英语课程标准(实验稿)》公布实施后,全国中学英语教育界展开了对任务型教学法的研究与实践。在相对落后的民族山区中学实践任务型教学法,要慎而行之