基于深度学习模型对化合物-蛋白质相互作用进行分类与预测的研究

来源 :兰州大学 | 被引量 : 1次 | 上传用户:hxhx1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物靶标的识别在药物发现和生物制药领域起着重要作用,其核心就是化合物-蛋白质相互作用关系的识别。传统的基于实验验证的药物研发模式,已经积累了大量的化合物-蛋白质相互作用关系的基础数据,然而,该模式存在流程复杂、识别不全、周期长、费用高昂以及成功率低的特点。近年来基于大量基础数据进行训练的深度学习模型,在不同领域(图像识别和语音处理等)的分类与预测中,取得了惊人的成果。基础数据的大量积累、CPU+GPU的高速发展以及深度学习模型的快速进化,为基于该模型进行化合物-蛋白质相互作用关系的分类和预测提供了可能。因此,本研究采用深度学习的模型,对化合物-蛋白质相互作用关系进行分类和预测,可在较短时间内全面学习已积累的化合物-蛋白质相互作用关系基础数据中的特征,并据此特征预测新的化合物-蛋白质相互作用关系,从而为药物靶标的识别提供低成本的线索。本研究采用的实验数据主要来源于BindingDB数据库,对原始数据进行处理后得到1224408条化合物与蛋白质相互作用为绑定的正样本数据,将其分类标签设定为1,利用随机生成算法按照正负样本1:2生成负样本数据,其标签设定为0。之后,使用TensorFlow框架构建用于对化合物-蛋白质相互作用进行分类与预测的强大深度学习模型,以上述实验数据为基础,进行模型的训练、参数的调整和优胜模型的确定。整个研究过程包括数据收集及处理,模型构建和实现以及确定,其间有尝试大量的神经网络实验方案,经过对比,最终确定的模型采用深度神经网络来分别对化合物和蛋白质的数据进行特征提取,并使用循环神经网络来对相互作用进行分类与预测。模型参数数量达到了3927万个,在测试集上准确率达到了95.82%,F1-score值为94.05%,AUC的值为98.71%。对某一化合物的靶标识别也得到了较好的预测结果。本研究的实验结果提示,基于深度学习的方法对化合物-蛋白质相互作用的分类和预测具有一定的理论和现实意义。
其他文献
同业公会是中国近代特别是民国时期普遍成立的新式工商业组织,在市场中起着重要的协调作用。近代上海与服装相关的主要行业有西装业、时装业、衬衫业等,并且各自都有自己的同
现金作为流动性最强的资产,能够维持企业生产经营活动的顺利开展,预防经营风险,避免陷入财务困境。但如果管理层和大股东超额持有现金,不仅会产生大量现金持有成本,还会为在
近年来接连发生的大规模停电事故、自然灾害以及全球范围内的能源瓶颈问题,使得互联电网的弊端逐渐暴露,传统电力系统亟待融合可再生能源、具有可持续发展能力的辅助型电网出
1988年台湾当局宣布开始“全面解禁”,报纸行业获得了前所未有的“新闻自由”,却同时出现了娱乐化、黄色新闻泛滥;政治斗争每时每刻都占据着版面头条;新闻内容同质化严重;最
与传统输运技术相比,静压气悬浮技术有着效费比高、适应性强和清洁环保的特点,被广泛应用于造船业、物流运输、航空航天、石油钻探、大型机械装配等。本文以重载物件的悬推式
火电厂主汽温对机组安全、稳定及经济运行具有重要的意义,但该系统往往具有大迟延、大惯性、非线性及参数不确定等特点,且随着机组的容量增大,其惯性特征显著增强,被控对象更
本文保持Zn和Ca总质量百分比(wt.%)为4%,设计并制备了具有不同Zn/Ca比的Mg-x Zn-(4-x)Ca-0.5Mn(x=2.9,2.2,1.4 wt.%)合金。在此基础上,通过添加0.5 wt.%Ti C纳米颗粒,制备出Ti C_p/Mg-Zn-Ca-Mn纳米复合材料。系统地研究了Zn/Ca比及纳米Ti C_p的加入对铸态及挤压态Mg-Zn-Ca-Mn合金及其纳米复合材料组织与性能的影
富士是我国苹果第一大主栽品种,但生产中“大小年”现象普遍发生。树形是果树优质丰产栽培的重要基础,但相关研究不够深入,三维数字化树形评价技术可以精确描述冠层结构,为苹
花烛(Anthurium andraeanum Lind.),又名红掌、安祖花或烛台花等,为天南星科(Araceae)花烛属(Anthurium)植物。花烛花型独特,颜色丰富,是市场需求量较大的热带花卉。但我国花
麋鹿是中国特有的珍稀保护动物,石首麋鹿也是世界上第二大的麋鹿野生种群。长期以来,天鹅洲故道与长江的自然连通,使得低滩和洲滩洼地芦苇和牧草茂盛,中高滩亦有良好的林草生