论文部分内容阅读
近年来人工智能技术在药物设计中的应用得到了快速发展,极大提升了药物研发管线的推进速度与成功率。通过挖掘现有数据中潜藏的分布规律,深度学习模型可以预测分子的活性与代谢性质等关键信息,从而辅助各阶段的研发人员进行决策。深度学习模型的统计学习本质决定了它只能在训练集覆盖的样本空间内给出可靠预测,然而其所基于的传统神经网络结构在进行预测时往往无法同时给出预测结果的信度,因此可能导致不可靠的预测结果流入决策管线,从而造成资源的极大浪费,这在药物研发中尤其危险。如何快速、有效地估计药物设计中深度学习模型的不确定性,即衡量其可靠性,是最近学术界关注的焦点。以此为背景,本论文围绕人工智能辅助药物设计中的不确定性估计展开,主要内容分为三部分。第一部分(第2章)以分子生物活性预测为背景,考察了4种有代表性的不确定性估计方法之间的互补性,并设计了一套集成不确定性估计策略,以克服独立方法表现不稳定的问题。测试结果显示该策略显著优于已有的单一独立方法。第二部分(第3章)借鉴了计算机科学中后验网络的思想,尝试将传统神经网络的Softmax输出层替换为标准化流,构造了一种名为Att Fp Post的新型图卷积神经网络框架用于分子性质分类。基于代谢性质建模的测试结果显示该模型不但能准确地估计认知不确定性,而且可以缓解预测过度自信的倾向,使表现更加稳定。第三部分(第4章)提出了一种新颖的药物共晶预测模型用于辅助小分子药物共晶筛选,使用构造法获得阴性样本,并考察了第二部分的后验网络模型在该任务上的效果。图神经网络模型最近在分子性质预测任务上取得了较高的准确性,学术界也提出了许多可以用于该类模型的不确定性估计方法。然而一些基于多种数据集与评价指标的研究表明这些方法的稳定性较差,这为实际建模时选择合适的不确定性估计策略带来了困难。本文第2章中,我们选择了4种有代表性的方法构建了一种集成不确定性估计框架。基于24个生物活性数据集的基准测试显示,集成策略在误差排序与校准性能上都要优于独立方法。消融实验结果显示,去除任何一种独立方法都会导致集成方法的表现出现有显著性地下降,这说明不同独立方法之间存在较强的互补性。分子指纹距离以前常被用于定义QSAR模型的应用域,而最近的许多研究认为该方法不适用于图神经网络。本章中我们发现分子指纹距离虽然单独使用时效果较差,但在训练集分布有偏时能提供对于不确定性的先验估计,因而仍有其独特的价值。实验结果还显示均值-方差损失可以降低建模误差,这对其它异方差性显著的生物建模问题具有借鉴意义。药物设计中许多问题属于分类问题,如判断分子是否具有毒性或是否能结合感兴趣的靶标蛋白等。传统的分类模型使用Softmax层获得预测概率,但前期研究指出,对于训练集没有覆盖到的难预测样本,Softmax层所输出的概率不能视为信度,反而容易给出“自信但错误”的预测,这对药物研发过程显然是危险的。除此之外,传统分类模型也存在无法估计认知不确定性等问题。第3章中我们借鉴后验网络的思想,将分子图卷积模型Att Fp的输出层改造为基于标准化流的概率模型,并将新的框架命名为Att Fp Post。基于6种ADME/T数据集的基准测试显示Att Fp Post相对于Att Fp具有更强的分类能力与校准能力。特别是在分布偏移显著的Cardio Tox数据集上,通过更换输出层,模型的au ROC从0.786提升到了0.825,与类似的GNN-GP等方法效果相当,但校准性能更强。实验结果同时显示Att Fp Post可以显著降低“错误自信”预测的比例,有助于构建更加稳健的自动化决策流程。本章采用Att Fp Post构建了一种P-gp抑制剂分类模型。152个分子组成的外部测试集结果显示,该模型的预测能力超过现有的主流ADME/T服务器。本章最后探索了后验网络在基于配体的虚拟筛选任务中的效果,发现替换输出层可以有效提高模型的前端富集率。第4章基于药物共晶预测这一课题进一步考察了Att Fp Post的实际应用价值。药物共晶是指药物分子与其它药学上可接受的配体以一定化学计量比结合在同一晶格中所形成的晶体学现象。最近共晶技术因其能够改善药物的溶解度、溶出速率与口服生物利用度等性质而受到广泛关注。然而目前常用的共晶配体筛选仍然基于湿实验手段,效率很低。虽然学术界已经提出了一些计算方法可以用于共晶虚拟筛选,但都有各自的局限性。本章提出了一种构建共晶虚拟筛选模型的技术流程。该流程从剑桥晶体结构库中收集高质量阳性样本,通过随机配对获得阴性样本,使用统计学习模型预测两个新的分子之间能否形成共晶。作为前期探索,本章的前半部分先考察了6种机器学习模型与10种分子指纹表征两两组合的效果,发现基于MACCS指纹与Pub Chem指纹的随机森林模型效果最好,在基于时间拆分的测试集上au ROC分别可达0.835与0.844。18组实验数据构成的外部测试以及卡托普利的共晶筛选也进一步验证了该技术路线的可靠性。在完成路线验证后,本章还探索了将机器学习模型替换为Att Fp与Att Fp Post,发现使用分子图卷积模型能够提升分类表现,且Att Fp Post能获得校准性能更优的预测概率。这与第3章的结论得到了相互印证,进一步证实了Att Fp Post在分类问题建模中的优势。本章最后对实验确证的阴性样本在建模过程中的应用价值进行了一些探索。