一个药物虚拟筛选的深度学习模型

来源 :东华大学 | 被引量 : 0次 | 上传用户:nicenic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物设计与发现是药物研发的重要阶段,目的是发现与特定靶点结合后具有活性的苗头化合物。传统的方法是通过高通量实验筛选,但耗时长、支出高,且成功率低。随着计算机技术的飞速发展,虚拟筛选技术逐渐成熟,这是通过计算机从大型化合物数据库中筛选活性化合物的一种方法,可大大缩短筛选苗头化合物的时间,也提高了筛选的有效性和准确度。本文使用DUD-E、MUV和Kernie三个数据集进行实验,建立了一个基于结构的药物虚拟筛选的深度学习模型。主要研究工作及结论包括:1.对通过分子对接程序Smina分子对接形成的配体-靶点复合物形态进行特征提取,提取的特征为原子类型、原子所带电荷、与参考原子的距离以及原子的氨基酸类型,提出基于结构的虚拟筛选的CNN模型,命名为Deffini模型,并利用TPE(Tree Parzen Estimators)算法对Deffini模型进行超参数优化。2.利用基于聚类的三折交叉验证,即根据靶点的蛋白序列的相似性把靶点数据分成三折,把相似靶点样本放到同一折中,以避免测试集与训练集样本高度相似而导致对模型性能的高估。利用Deffini模型在DUD-E上进行基于聚类的三折交叉验证。3.利用四个对比模型,包括分子对接程序Smina,以及三个深度学习模型,Gan DTI、基于配体的虚拟筛选的CNN和Transformer模型,在DUD-E上进行基于聚类的三折交叉验证,比较各个模型的各项评价指标,包括AUC-ROC、AUC-PRC、1%富集因子(EF1%)和5%富集因子(EF5%),对比分析各个模型的性能差异。实验表明,三个深度学习模型各项评价指标明显优于Smina,而我们的Deffini模型性能最佳。4.构建靶点蛋白家族特异性模型,即保证训练集和测试集的靶点来自同一蛋白家族。在DUD-E上实验发现,相比于泛家族模型,靶点蛋白家族特异性模型的各项性能、泛化能力得到了显著的提升。由于DUD-E所含激酶靶点数据量较小,为了更好地探索靶点蛋白家族特异性模型,利用我们自行构建的更大的激酶靶点数据集Kernie训练Deffini模型,并依据迁移学习的思想,在MUV的激酶靶点上测试。与利用DUD-E中的激酶靶点数据训练的Deffini模型相比,利用Kernie训练得到的Deffini模型AUC-ROC、AUC-PRC、EF1%和EF5%值均更高,泛化能力更强,模型性能更佳。本文基于配体-靶点复合物的三维结构,提出了基于结构的虚拟筛选的CNN模型(Deffini模型),并比较分析泛家族和靶点家族特异性两种虚拟筛选模型的训练方式。Deffini模型和靶点家族特异性的训练方式在一定程度上提高了虚拟筛选模型的泛化能力,提高了虚拟筛选的准确率和有效性。
其他文献
空预器作为垃圾焚烧发电锅炉中的一个重要部件,可以将空气加热到高温,利用高温空气来干燥垃圾。在空预器低压段中,所选用的热媒为过热水蒸气。由于过热水蒸气在管内换热分为过热段和冷凝段两段,因此相比饱和蒸汽的冷凝要复杂很多,因此工程上在设计、制造以及运行空预器低压段时会遇到很多难以解决的问题。在工程中为了强化空气侧的换热,在设计空预器时会在管外缠绕翅片。这样设计能更有效地利用蒸汽冷凝的汽化潜热来提升空气温
学位
随着经济的发展,人们的出行依赖公共交通工具程度越来越高,在疫情频发的当下,人们出行安全愈发受到重视,病毒静态传播范围有限,但大规模人员活动会带动病毒大范围的快速传播。在高铁站、地铁站等交通枢纽中,空间相对密闭,人员行为复杂,尤其是换乘通道中,人员大规模活动,对于其中人员运动的研究愈发迫切。国内外研究中,仅对单人运动进行研究,并未考虑过在狭长空间中人群的运动对于流场的扰动作用,人员并行运动对于周边流
学位
随着大数据时代的来临,不平衡分类问题在更多应用领域中被人们所关注。由于传统的分类算法通常建立在各类别样本错分代价相同且数量相等的假设之上,导致这些方法在实际应用中效果甚微。在处理不平衡分类问题时,对原始数据集进行重采样以及改进传统分类算法是两个主流的解决思路,此外,少数类样本识别率低下是不平衡分类问题的主要难点,而在少数类样本中,非安全样本往往具有更大的分类难度,但同时这也是提升算法分类性能的重要
学位
紫外/氯高级氧化技术(UV/Cl2 AOP)能够在水厂现存的氯消毒的基础上原位引入高活性的HO·和多种氯类自由基,从而有效去除水体中难降解有机污染物,在饮用水深度处理方面具有较大的应用潜力,是当前的研究热点。但氯类自由基能够和水体中天然有机物发生反应生成高毒性消毒副产物(DBPs),是UV/Cl2在水处理中应用的一个潜在问题。与此同时,水体中存在的溴离子、铵根离子和硝酸根离子会使氯代消毒副产物(C
学位
真菌气溶胶污染危害人员呼吸健康并引发物资霉变。以长江中下游地区为代表的梅雨时期,真菌滋生更为肆虐,而空调系统中表冷器在与湿空气换热时易在表面积累灰尘并产生大量冷凝水,形成促进真菌增殖的有利条件,而沉积在表冷器表面的真菌也能被送风气流二次气溶胶化进入室内,增大人员吸入风险。因此,明确梅雨时期空调表冷器对送风中真菌气溶胶的浓度、粒径及群落的动态变化规律对保障室内人员呼吸健康与物资安全具有重要意义。且目
学位
随着经济快速发展,为拓展城市空间、提高交通运输能力,我国开展了诸如地铁、隧道等众多地下工程的勘探和建设项目。在开发和利用地下空间的过程中,遭遇到埋藏在浅层地层的高压可燃性气体—浅层气,在我国江浙沿海、长江三角洲等区域均探测到有其存在。浅层气具有一定的资源属性,但是在土木工程建设中,通常将其视为潜在的地质灾害,由于浅层气具有一定的赋存压力,在含气区域进行勘探作业时需要重点关注因井底压力失控而造成的浅
学位
近年来,我国产业结构调整和城市发展转型导致工业企业搬迁遗留场地存在的有机物、重金属污染等生态环境问题,严重制约了土地的安全再利用。为有效控制污染物在地下水土中的运移,研究防渗截污性能优良的竖向隔离屏障技术、开发高性能的改性膨润土是我国工业污染、固废填埋场地修复技术发展和建设美丽中国的迫切需求。本研究通过试验、分子动力学模拟和理论分析对羧甲基纤维素钠(CMC)改性膨润土和十六烷基三甲基溴化铵(CTM
学位
随着我国股市规模的不断壮大,股票市场与宏观经济之间的相互作用也越发显著.因此股价预测等问题受到了众多学者的广泛关注.大量金融实证研究表明股票价格具有非线性和尖峰厚尾的特点,多数金融风险问题也往往存在于厚尾之中.除此之外,股票价格极易受到复杂因素的影响引起突变,从而出现跳跃现象.为了弥补高斯过程的不适用性,并基于α-稳定过程能够很好的描述尖峰厚尾和跳跃现象,以及马氏链可用于拟合股市的牛熊交替.本文提
学位
近年来,连栋玻璃温室的应用日益广泛,但因其成本高、技术尚不成熟等原因,我国连栋玻璃温室在使用中仍面临许多问题。在冬季,由于温室没有明显的保温能力,室内外温差小,导致加温能耗大。而夏季,受太阳辐射的影响,温室内部堆积的热量过多,不利于作物生长。因此,通过内遮阳保温幕和气泡膜多层覆盖的方式来降低温室冬季夜间加温能耗以及通过不同遮阳工况对夏季温室环境的调控来满足不同作物对温度的需求是两个亟待解决的问题。
学位
随着我国互联网信贷市场的快速发展,网上信贷交易规模和金额大幅攀升,信贷方式以及信贷业务面向群体也变得更加复杂多元化。金融企业的核心是风险控制,有效的风险防范是保持稳定收益的关键因素,所以事前识别出潜在的违约客户对降低信用风险具有重要意义。从惩罚算法来看,模型对违约客户的误分类成本要高于履约客户,风险防范应当重点关注样本中违约客户的分类精度。而在正常的信贷业务中,客户违约事件的发生比例很小,信贷数据
学位