基于深度学习进行蛋白质—化合物绑定预测的研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:shen41941395
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代药理学研究积累了大量蛋白质-化合物绑定的数据,然而,迄今为止,仍有很多的化合物缺乏与蛋白质的绑定信息,这限制了药理学的进一步快速发展。传统的基于药理学实验的研究方式,资金投入多,实验周期长,得到的蛋白质-化合物绑定数据少。深度学习是基于特定问题积累的大量历史数据构建神经网络模型进行学习的方法,快速发展的计算机硬件技术(CPU和GPU等)使得深度学习的过程成为可能。因此,针对已有的海量蛋白质-化合物绑定数据,构建深度学习模型进行训练,从中抽取蛋白质-化合物绑定特征,并依据抽取的特征进行预测,可在较短的时间内完成模型的训练并实现任意蛋白质-化合物的绑定预测,为药理学的研究提供新的线索。本文借助由谷歌公司研发的深度学习平台——TensorFlow框架搭建神经网络模型并进行训练和预测。数据全部来源于国际生物信息数据库——BindingDB。通过对原始数据进行处理,最终得到的每一条数据表示一种化合物和一种蛋白质是否能发生绑定,其中能绑定的为正样本,标签为1,不能绑定的为负样本,标签为0。本研究共使用约700万个样本,并将其分成三部分,一万个样本用来验证,一万个样本用来测试,其余样本全部用来训练。本论文训练了两个模型,一个是卷积神经网络模型M1,另一个是全连接神经网络模型M2。每个模型分为两部分,在M1模型中,第一部分通过三种不同类型的卷积核来分别提取化合物中的原子块、化学键块和用氨基酸序列表示的蛋白质的特征。M2模型的第一部分通过三个全连接网络对原子块、化学键块和蛋白质块进行特征提取。两个模型的第二部分是具有若干个隐层并且每个隐层节点数逐层递减的全连接神经网络,最后的输出层有两个节点,用one-hot编码表示化合物和蛋白质是否能发生绑定。本文的工作包括以下阶段:理论准备、下载原数据、分析数据、处理数据、确定模型、编写代码、训练模型直到得出结果,单次实验最长可达近400小时。发现M2模型的性能优于M1模型,在测试集的准确率为89%,由此可见,深度学习对未知蛋白质-化合物的绑定预测有较高的可信度,对药物的研发有一定的参考价值。
其他文献
主机遥控系统是一个典型的复杂系统,因其结构繁杂、组成的模块多,一旦发生故障,难于判断和处理,船舶因遥控系统故障造成停航乃至重大碰撞事故时有发生,因此加强船员对主机遥
苹果果实在贮藏期间经常发生像水心病、虎皮病、冷害、冻害等生理性病害,严重影响苹果的贮藏品质,国内对于采前苹果冻害研究较多,对于贮藏期间发生冻害的研究较少。本文基于
本研究对几个陕西地方梨品种的主要性状进行了描述,同时以‘青矮’系为矮化中间砧和‘榅桲’为基砧、‘哈代’为亲和中间砧的砧穗组合为试材,研究了5年生的不同砧穗组合对梨
有机电致发光器件(Organic Light Emitting Diode,OLED)因宽视角、超薄、柔性等独特的性能,成为照明和显示领域的研究热点。相对于昂贵的磷光材料,有机小分子发光材料具有易合成,价格低廉、光色可调等优势。但传统的小分子材料由于自旋禁阻效应只有占25%的单线态激子参与发光,其激子利用率(Exciton Utilization Efficiency,EUE)理论极限值为25%,
本文基于氢燃料电池、太阳能电池和蓄电池三电混合能源系统,给出了绿色能源无人机设计构型;针对绿色能源无人机设计过程中涉及到的能量、重量和功率的耦合关系,以功率匹配、
重大疫情作为典型突发公共卫生事件,具有极大的变动性和威胁性。重大疫情防控的关键是及时切断传播路径,而复杂的树状式传播路径的确认需要掌握各级传播者(感染者)的多方面信
会议
近年来,由于第三方施工单位使用挖掘机和推土机的盲目施工,导致燃气管道被损坏的现象越来越多,严重降低了人们的安全系数,也在社会层面上造成了很大的负面影响。而传统的人工巡线检测的方式存在设备利用率低、人工成本高的弊端,因此,研究挖掘机和推土机的自动化检测系统具有重要的意义。本文基于实际需求设计并实现基于机器视觉的挖掘机和推土机检测系统,其目的在于能够对目标区域内的现场画面进行实时监控,利用背景差分技术
随着高速铁路的迅速发展,人们对高速列车乘坐舒适性的要求越来越高,而车内噪声作为舒适度主要指标之一,备受人们关注。车外声源和振动引起车厢板件结构振动向车内辐射噪声,提高列车板件结构的隔声性能是改善车内声学环境的有效途径。因此,本文以高速列车车体型材结构为研究对象,在考虑结构轻量化和强度的前提下,对型材结构的隔声性能进行优化,具体研究工作如下:首先,基于2.5维结构有限元法(2.5D Finite E
目的 研究中医中药“扶正理气方”在腹部手术外科中的应用.方法 回顾性分析本院1998年以来,中药“扶正理气方”在1176例腹部手术后患者的应用情况.包括阑尾切除、胆囊切除、
会议
棉花作为用途广泛的农作物,其棉纤维可以用于纺织工业,棉籽可作为重要的油料来源,棉花的茎秆也可做工业材料和牲畜饲料,它对我国经济的发展也起着不可忽视的作用。目前棉花生