不确定性估计在药物设计中的方法研究与应用

来源 :中国科学院大学(中国科学院上海药物研究所) | 被引量 : 0次 | 上传用户:ttw961086
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来人工智能技术在药物设计中的应用得到了快速发展,极大提升了药物研发管线的推进速度与成功率。通过挖掘现有数据中潜藏的分布规律,深度学习模型可以预测分子的活性与代谢性质等关键信息,从而辅助各阶段的研发人员进行决策。深度学习模型的统计学习本质决定了它只能在训练集覆盖的样本空间内给出可靠预测,然而其所基于的传统神经网络结构在进行预测时往往无法同时给出预测结果的信度,因此可能导致不可靠的预测结果流入决策管线,从而造成资源的极大浪费,这在药物研发中尤其危险。如何快速、有效地估计药物设计中深度学习模型的不确定性,即衡量其可靠性,是最近学术界关注的焦点。以此为背景,本论文围绕人工智能辅助药物设计中的不确定性估计展开,主要内容分为三部分。第一部分(第2章)以分子生物活性预测为背景,考察了4种有代表性的不确定性估计方法之间的互补性,并设计了一套集成不确定性估计策略,以克服独立方法表现不稳定的问题。测试结果显示该策略显著优于已有的单一独立方法。第二部分(第3章)借鉴了计算机科学中后验网络的思想,尝试将传统神经网络的Softmax输出层替换为标准化流,构造了一种名为Att Fp Post的新型图卷积神经网络框架用于分子性质分类。基于代谢性质建模的测试结果显示该模型不但能准确地估计认知不确定性,而且可以缓解预测过度自信的倾向,使表现更加稳定。第三部分(第4章)提出了一种新颖的药物共晶预测模型用于辅助小分子药物共晶筛选,使用构造法获得阴性样本,并考察了第二部分的后验网络模型在该任务上的效果。图神经网络模型最近在分子性质预测任务上取得了较高的准确性,学术界也提出了许多可以用于该类模型的不确定性估计方法。然而一些基于多种数据集与评价指标的研究表明这些方法的稳定性较差,这为实际建模时选择合适的不确定性估计策略带来了困难。本文第2章中,我们选择了4种有代表性的方法构建了一种集成不确定性估计框架。基于24个生物活性数据集的基准测试显示,集成策略在误差排序与校准性能上都要优于独立方法。消融实验结果显示,去除任何一种独立方法都会导致集成方法的表现出现有显著性地下降,这说明不同独立方法之间存在较强的互补性。分子指纹距离以前常被用于定义QSAR模型的应用域,而最近的许多研究认为该方法不适用于图神经网络。本章中我们发现分子指纹距离虽然单独使用时效果较差,但在训练集分布有偏时能提供对于不确定性的先验估计,因而仍有其独特的价值。实验结果还显示均值-方差损失可以降低建模误差,这对其它异方差性显著的生物建模问题具有借鉴意义。药物设计中许多问题属于分类问题,如判断分子是否具有毒性或是否能结合感兴趣的靶标蛋白等。传统的分类模型使用Softmax层获得预测概率,但前期研究指出,对于训练集没有覆盖到的难预测样本,Softmax层所输出的概率不能视为信度,反而容易给出“自信但错误”的预测,这对药物研发过程显然是危险的。除此之外,传统分类模型也存在无法估计认知不确定性等问题。第3章中我们借鉴后验网络的思想,将分子图卷积模型Att Fp的输出层改造为基于标准化流的概率模型,并将新的框架命名为Att Fp Post。基于6种ADME/T数据集的基准测试显示Att Fp Post相对于Att Fp具有更强的分类能力与校准能力。特别是在分布偏移显著的Cardio Tox数据集上,通过更换输出层,模型的au ROC从0.786提升到了0.825,与类似的GNN-GP等方法效果相当,但校准性能更强。实验结果同时显示Att Fp Post可以显著降低“错误自信”预测的比例,有助于构建更加稳健的自动化决策流程。本章采用Att Fp Post构建了一种P-gp抑制剂分类模型。152个分子组成的外部测试集结果显示,该模型的预测能力超过现有的主流ADME/T服务器。本章最后探索了后验网络在基于配体的虚拟筛选任务中的效果,发现替换输出层可以有效提高模型的前端富集率。第4章基于药物共晶预测这一课题进一步考察了Att Fp Post的实际应用价值。药物共晶是指药物分子与其它药学上可接受的配体以一定化学计量比结合在同一晶格中所形成的晶体学现象。最近共晶技术因其能够改善药物的溶解度、溶出速率与口服生物利用度等性质而受到广泛关注。然而目前常用的共晶配体筛选仍然基于湿实验手段,效率很低。虽然学术界已经提出了一些计算方法可以用于共晶虚拟筛选,但都有各自的局限性。本章提出了一种构建共晶虚拟筛选模型的技术流程。该流程从剑桥晶体结构库中收集高质量阳性样本,通过随机配对获得阴性样本,使用统计学习模型预测两个新的分子之间能否形成共晶。作为前期探索,本章的前半部分先考察了6种机器学习模型与10种分子指纹表征两两组合的效果,发现基于MACCS指纹与Pub Chem指纹的随机森林模型效果最好,在基于时间拆分的测试集上au ROC分别可达0.835与0.844。18组实验数据构成的外部测试以及卡托普利的共晶筛选也进一步验证了该技术路线的可靠性。在完成路线验证后,本章还探索了将机器学习模型替换为Att Fp与Att Fp Post,发现使用分子图卷积模型能够提升分类表现,且Att Fp Post能获得校准性能更优的预测概率。这与第3章的结论得到了相互印证,进一步证实了Att Fp Post在分类问题建模中的优势。本章最后对实验确证的阴性样本在建模过程中的应用价值进行了一些探索。
其他文献
锂离子电池的荷电状态(State of charge,SOC)和健康状态(State of health,SOH)是电池储能系统在运维过程中所需要估算的重要参数。为了能够对电池状态进行可靠估计,采用深度学习方法中的简单循环单元(Simple recurrent unit,SRU)来实现对电池SOC和SOH的联合估计。首先,通过利用SRU在处理时序问题上的优势,建立了基于SRU的电池SOC估计模型;
期刊
代谢型谷氨酸受体(Metabotropic glutamate receptors,m Glu)属于C类G蛋白偶联受体(G protein-coupled receptors,GPCR),主要分布于中枢神经系统中,是重要的兴奋性神经递质受体。m Glu通过感知神经突触间隙或神经细胞周围环境中的兴奋性神经递质——谷氨酸进行信号转导,进而调节神经递质的释放、神经元的生长等生理过程。研究发现,m Glu
学位
为了准确对巡检机器人穿越预定杆塔所需要的能量进行SOC估计,通过分析线路工况和实验数据,建立巡检机器人能耗模型。考虑到巡检机器人从起始杆塔到预定杆塔之间的累计误差会逐渐增大,导致抵达预定杆塔时无法对巡检机器人锂电池SOC准确估计。因此,结合巡检机器人能耗状态方程和锂电池量测模型,并采用扩展卡尔曼滤波的方法对巡检机器人锂电池SOC能耗的理论值进行迭代,同时,也引入次优渐消因子降低不确定参数的误差,提
期刊
为了减少遗留煤柱造成的煤炭资源浪费,在工作面开采中应用了110工法。结合斜沟煤矿的实际地质条件,设计了110工法工业性试验工作面。现场实践结果表明,应用110工法后,可多产煤炭3.797×10~5 t,创造经济效益1.594 74×10~8元。这充分表明,110工法在千万吨级厚煤层开采中具有显著的优势。
期刊
稀疏重构一直是信号处理领域的核心内容,它在生物、医学、图像、语音、雷达、水声等领域都扮演着重要的角色。经典的稀疏重构算法一般采用参数域离散化的策略,在固定的网格点上对稀疏信号进行重构。尽管离散的网格能够导出更为简单的优化问题,但这往往不太符合实际,因为信号参数并不总是落在网格点上。离散假设会导致网格失配、谱泄漏等问题,影响重构精度。其次,网格化算法的分辨力也会受到网格步长的制约,限制了其在许多高分
学位
以珠江流域浅层地下水变化为研究对象,基于研究区504口民井2019年枯水期、2020年丰水期、枯水期三期浅层地下水位高程数据,对研究区地下水位动态变化特征进行分析,结果显示:珠江流域区域浅层地下水枯期地下水位高程值为-1.24~472.215 m,丰水期浅层地下水位高程值范围为0.24~472.315 m。区域浅层地下水位高程等值线与地形分布相关,水位高程最大值位于连山县吉田镇,最小值位于佛山南海
期刊
文章以生姜秸秆为原料,采用氯化锌活化法制备生姜秸秆基多孔活性炭,优化材料最佳制备条件。利用扫描电子显微镜、X射线衍射仪、氮气吸附物理分析仪、傅里叶红外光谱和拉曼光谱等表征手段对生姜秸秆基多孔活性炭形貌结构以及化学组成等进行分析,并考察溶液pH值、吸附时间、温度和初始浓度对其吸附亚甲基蓝(MB)染料的影响。结果表明:生姜秸秆基多孔活性炭最佳制备条件为氯化锌与生姜秸秆质量比2∶1、活化温度500℃、活
期刊
<正>记得第一次读?中学生数学?是2003年,那年我上高三,同学之中不知道从哪里弄来了一本?中学生数学?,大家相互传阅,视若珍宝.我将里面的一篇大概是写一道竞赛题的文章全文摘抄在我的笔记本上,也许是物以稀为贵的原因,连班上平时对数学不怎么上心的同学也要借过去看上一看,好像不看看怕错过了高考的什么内容一样.
期刊
肿瘤组织纯度指的是肿瘤组织中癌细胞的比例。在使用第二代测序技术分析肿瘤组织的分子生物学和基因组学特征的研究中,肿瘤组织纯度会对分析结果产生很大的影响并可能改变分析结果的生物学解释和临床解释,造成假阳性和假阴性结果的产生。准确评估肿瘤组织样本的纯度是计算肿瘤基因组中基因和等位基因拷贝数的先决步骤。大规模的癌症基因组项目发现的基因组变异数据在肿瘤治疗中有着重要的意义,并且成为了新药研究的重要数据来源。
学位
骨关节炎(Osteoarthritis,OA)是最常见的退行性骨关节疾病,发病率高且易致残,给社会和个人带来巨大经济压力。2018年,骨关节炎被美国食品药品监督管理局(Food and Drug Administration,FDA)正式认定为“医疗需求未被满足的严重疾病”。骨关节炎影响关节和关节周围组织——软骨、软骨下骨和滑膜等,最普遍的症状是疼痛,与炎症相关。破骨细胞介导的骨吸收和成骨细胞介导
学位