【摘 要】
:
化合物与蛋白质绑定关系对于药物研发具有重要的提示性意义。目前药物研发涉及多成分、多靶点、多作用模式,并且药物研发面临成本高、周期长、成功率低的问题。现有的化合物与蛋白质绑定关系数据是近现代生物学、化学和医学通过实验研究积累产生,并收集在不同的知识库中。因此,近年来深度学习模型被广泛运用到化合物与蛋白质绑定关系研究中。但是,通过深度学习模型预测化合物与蛋白质绑定关系存在假阳性高的问题。如何预测化合物
论文部分内容阅读
化合物与蛋白质绑定关系对于药物研发具有重要的提示性意义。目前药物研发涉及多成分、多靶点、多作用模式,并且药物研发面临成本高、周期长、成功率低的问题。现有的化合物与蛋白质绑定关系数据是近现代生物学、化学和医学通过实验研究积累产生,并收集在不同的知识库中。因此,近年来深度学习模型被广泛运用到化合物与蛋白质绑定关系研究中。但是,通过深度学习模型预测化合物与蛋白质绑定关系存在假阳性高的问题。如何预测化合物与蛋白质绑定关系并且降低预测结果中的假阳性问题具有重要的现实意义,针对该问题本研究创新性提出了基于正、负神经网络模型采用决策融合机制预测化合物与蛋白质绑定关系的方法。本研究采用Binding DB数据库的数据,经过分析、清除和预处理获得化合物与蛋白质绑定的样本,然后采用随机匹配和去除已知绑定的样本生成非绑定样本。本研究为二分类问题和监督学习,因此对样本进行类别标注,而且正模型目的是学习化合物与蛋白质绑定特征,即绑定的样本标签为1,非绑定的样本标签为0,反之负模型目的是学习化合物与蛋白质非绑定特征,即非绑定的样本标签为1,绑定的样本标签为0。正、负模型采用的神经网络结构是一种融合了循环神经网络和卷积神经网络的复合神经网络模型。复合神经网络模型主要包含三部分:第一,使用三个长短期记忆网络(LSTM)分别对化合物原子块、化学键块和蛋白质氨基酸序列三个变长数据进行特征提取,之后对三个循环神经网络的输出拼接、组合并转化维度,作为卷积神经网络的输入;第二,使用卷积神经网络学习化合物与蛋白质绑定关系的特征,使用全连接层把卷积神经网络模块提取关于化合物与蛋白质绑定关系的特征进行二分类任务,第三,在输出层采用Softmax层将全连接层的输出转化为类别的概率,从而预测出样本的类别。正、负模型分别预测每个样本的类别,然后基于决策融合机制,从正模型预测为绑定的样本中去除负模型预测为非绑定的样本,获得最终的绑定样本。本研究从原始数据的采集、分析和预处理、样本集的生成、模型的构建、代码的编写和调试到训练出最终模型,期间试验过几十种解决方案,历经一年多时间,获得一组最优超参数,并以此训练出最终正、负模型。随机抽取100个化合物与7181个蛋白质进行实际应用的预测,经过正、负模型决策融合方法后,其准确率从94.61%提升到98.42%,提高了3.81%,精确率从0.39%提升到1.25%,提高了2.2倍,假阳性样本量降低了70.78%。本研究在降低化合物与蛋白质绑定关系预测假阳性问题上得到一定的成果,但是预测得出的化合物绑定蛋白质的期望与真实数据当中化合物绑定蛋白质的期望约为1.88,而本研究预测的最终期望约为114.53,有待后续研究继续跟进提高。
其他文献
据《中国心血管健康与疾病报告2019概要》研究显示,心血管病的患病率与致死率仍不断上升,受不健康的生活方式或其他疾病如高血压、高血脂和糖尿病等影响,其死亡率远高于其他恶性疾病。病理性心脏肥大作为适应应激状态的不良改变进程,其心肌细胞增大的同时检测到凋亡现象、组织纤维化及炎症反应发生;且由钙相关蛋白参与的受基因调控的细胞增殖、离子通道介导的收缩耦联以及胞内胞外代谢途径都发生改变。以上变化将引发恶性心
算子谱理论,作为近年来备受瞩目的算子理论的一个重要分支,受到了许多国内外学者的关注.近年来,诸多学者以Kato性质为工具对Weyl型定理进行研究,提供了许多新思路.本文在已有的理论基础之上,借助算子的Kato性质,通过定义新谱集来研究有界线性算子的Weyl型定理,并给出了算子的循环性与Weyl型定理之间的关系,以及算子的相应谱集的谱映射定理.全文共分为4章:第1章,阐述了本文的研究背景、研究现状和
两栖动物在生物进化史上是一种由水生向陆生过度的关键物种,其幼体阶段完全营水生生活(胚胎期及幼体变态前期),经变态过程(变态期)后转变为陆生生活的蛙类(成体期)。由于两栖动物生活史的特殊性,使得它们对外界环境的变化非常敏感,因此可以将其作为监测环境变化的指示生物。近几十年来,大量研究报道了两栖动物种群丰富度及多样性急剧下降,甚至濒临灭绝。造成该现象的主要原因可以归结为气候变化、外来物种入侵及栖息地污
输入律在模糊逻辑的理论和应用方面起着非常重要的作用.模糊蕴涵与一些合取算子(包括三角模、几类常见的一致模)间的输入律一直被广泛关注,并得到了大量的研究,也取得了很多成果,但输入律的方程求解问题并未得到彻底解决.本文将研究关于带有连续基础算子的一致模满足输入律的模糊蕴涵解的刻画.根据基础算子T和S的种类,本文将分为六种情况分别讨论.主要内容安排如下:第一章:预备知识.介绍本文所用到的模糊蕴涵,模糊否
串联反应是在相同的反应环境下、无新的操作时进行两步或两步以上的反应,具有实验步骤少、合成效率高、绿色环保等优点。如果将串联反应与C-H键官能团化结合使用,就可以从简单易得的C-H化合物出发,直接合成具有重要骨架的化合物。近年来,基于C-H键官能团化的串联反应引起了人们的极大关注,并已广泛用于合成复杂的化合物,尤其是环状化合物的合成。醛价廉、易得,是广泛存在且易于获得的原料之一,因此,发展以醛为底物
二维(2D)过渡金属硫族化合物(TMDs)层间为弱的范德华作用力,具有带隙可调和高的载流子迁移率等优异的光学和电学性能,因而在电子学、光电子学、传感器以及柔性器件等领域有广泛的应用前景。近年来,为满足器件功能化需求,需要对TMDs材料进行掺杂处理,进而对其带隙和导电属性等方面进行调控。其中2D WSe2为少数p型TMDs材料之一,具有高的光吸收系数和高效的光致发光效率,适合应用于场效应晶体管、光电
对羟基苯甲酸酯(p-hydroxybenzoic acid esters)为对羟基苯甲酸(p-hydroxybenzoicacid)与醇类脱水缩合形成的一类酯类物质,因具有高效、低毒、广谱抑菌等特点,作为防腐剂被广泛用于个人护理产品、药品、食品、保健品等消费品中。其中,对羟基苯甲酸甲酯(methylparaben,MP)和丙酯(propylparaben,PP)混合使用在化妆品防腐中最常见。一直认
近年来,金属卤化物钙钛矿材料作为一种新兴材料因其具有优异的光电性能,在太阳能电池,催化,激光,光电二极管等领域有着潜在的应用前景。全无机钙钛矿材料相较于有机无机杂化钙钛矿材料具有更加优异的热稳定性和化学稳定性,成为提升钙钛矿电池稳定性的潜在技术。缺点是高效全无机钙钛矿材料CsPbI3的光伏活性相在室温易发生相变,因此利用量子限域效应解决无机钙钛矿室温易相变的问题,拓展其应用于太阳能电池,发光二极管
光遗传学(optogenetics)技术作为一种具有优良时空特异性的神经元调控技术,成为了神经科学领域前沿技术之一并且受到了广泛的应用。光遗传学技术使用的光敏通道蛋白的激发光波长集中于可见光区域,而可见光对生物组织的穿透能力较弱,无法直接刺激深部核团。传统技术通常通过外科手术向脑组织深部核团植入陶瓷插芯进行光传导,植入的陶瓷插芯会对实验动物造成损伤,而且传输刺激光信号的光纤也限制了实验动物的运动范
随着老龄化问题日渐严重,养老问题引起社会广泛关注和思考。机构养老作为养老的重要方式,不仅要满足老人的日常生活需要,更要满足老人精神层面的需求,提高老人晚年生活质量。养老机构中,公共活动空间作为老人的娱乐休闲场所,对老人的精神生活有着较大的影响。本文基于这样一个大背景,以养老机构公共活动空间为研究主体,对老年人生理、心理、生活习惯等方面进行针对性研究。在此基础上,以西安市养老院为例进行了实地调研及老