基于深度学习的蛋白质相互作用预测研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:birdlay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的物质基础,在细胞生命活动中扮演着十分重要的角色。绝大部分蛋白质通过与其他的蛋白质发生互作从而执行多样的生物学功能。蛋白质相互作用是蛋白质组学研究的热点和难点之一,正确地识别蛋白质相互作用不仅有助于更全面地理解活细胞的生物分子生理过程,而且对于新药物的研发和疾病机制的探索等方面都具有重要的意义。基于传统湿实验识别蛋白质相互作用的技术存在费时,覆盖度有限且价格昂贵的缺点。近年来,研究者已经研发了一些利用机器学习和蛋白质氨基酸序列识别蛋白质相互作用的方法。但是这些方法普遍存在以下不足:1)蛋白质氨基酸序列向量化编码方法无法充分提取互作特征;2)忽视多种氨基酸序列编码和分类器间的互补信息,即仅使用单个编码算法和单个分类器预测蛋白质互作;3)蛋白质非相互作用数据集缺失或包含有大量噪声。为此,本文开展了如下工作:(1)针对蛋白质序列特征编码算法不能充分刻画氨基酸序列的连续和不连续区域中残基间的互作的问题,本文提出了一种基于局部三联体特征编码算法(LCTD:Local Conjoint Triad Description)和深度神经网络的方法—DNN-LCTD。局部三联体特征编码算法(LCTD)集成了三联体特征编码算法(CT:Conjoint Triad Descriptor)和局部特征编码算法(LD:Local Descriptor)的优点,因此它能更好的描述氨基酸序列连续和不连续区域隐藏的互作信息。深度神经网络(DNNs)不仅可以从原始数据中自动学习稳定的特征,而且还能描述和刻画数据的层次表示。DNN-LCTD在酵母菌蛋白质相互作用数据集上取得了优越的性能且仅耗时718秒,其中准确率(accuracy)达到93.12%,精度(precision)达到93.75%,AUC(Area Under Curve)达到97.92%。这些实验结果显示,DNN-LCTD能够高效且准确地预测蛋白质相互作用,同时还进一步证明了LCTD编码算法的优越性。(2)针对现有蛋白质相互作用预测方法忽略了多种氨基酸序列编码和分类器间互补信息的问题,本文提出了一种基于集成深度学习和集成蛋白质序列编码算法的分类方法—EnsDNN。EnsDNN首先分别利用自协方差特征编码算法(AC:auto covariance descriptor),LD,多尺度连续不连续局部特征编码算法(MCD:Multi-scale Continuous and Discontinuous local descriptor)编码氨基酸序列间的互作模式。然后基于每个特征编码算法训练不同配置的DNNs。最后为了利用AC,LD,MCD编码算法和不同DNNs间的互补信息,EnsDNN利用一个集成预测器自动地为每个DNNs分类器分配权重,并进行蛋白质互作预测。在酵母菌蛋白质数据集上,EnsDNN取得了优越的性能,准确率(accuracy)达到95.29%,召回率(recall)达到95.12%,精度(precision)达到95.45%。(3)针对蛋白质非相互作用数据集缺失或包含有大量噪声的问题。本文提出两种生成高质量非相互作用数据集的方法—NIP-SS和NIP-RW。NIP-SS和NIP-RW分别基于序列相似度和图上的随机游走的方法选择蛋白质非相互作用对。NIP-SS首先计算互作数据集中各蛋白质间的序列相似度,然后选取前m个最不相似的蛋白质对作为非相互作用对,同时控制已选择非互作用对的蛋白质的度分布与正数据集中的蛋白质度分布相似。NIP-RW则在蛋白质相互作用网络上进行k步随机游走,最后从更新后的邻接矩阵中选择无连接的蛋白质对作为非相互作用的数据。考虑到效率问题,本文使用AC编码氨基酸序列且使用深度神经网络作为分类器模型。大量的实验结果表明相较于其他已经存在的蛋白质非相互作用数据集生成策略,NIP-SS和NIP-RW可以生成更高质量的非相互作用对。实验结果还表明基于NIP-SS和NIP-RW策略生成的非相互作用数据集的DNNs模型的预测性能将更加准确和健壮。
其他文献
贵阳市着力构建'产业围绕旅游转、产品围绕旅游造、结构围绕旅游调、功能围绕旅游配、民生围绕旅游兴'的全域旅游发展格局,全力打响创建国家全域旅游示范区攻坚战。
【正】 一、博斯腾湖概况 博斯腾湖,古称“西海”,是新疆最大的湖泊,也是我国最大的内陆淡水湖,位于天山南坡焉耆盆地南侧最低洼处,它既是开都河的尾闾,又是孔雀河的发源地。
本文首先分析了清代民间立嗣继承的对象和立嗣继承的方式,详细论述了清代民间立嗣继承问题,重点论述了清代民间立嗣继承的宗祧继承与财产继承问题,深入探讨了应继、爱继以及
期刊
随着高等教育模式的不断创新变革,高校共青团工作不仅面临互联网大数据时代环境的剧变,也面临住宿学院教育模式的创新发展。作为住宿学院的书院制教育模式虽然在一定程度上增
【正】 气候是有变化或变迁的。在有限时期[比如30a(年)]内观察到的气象灾害导致的减产量,并不能代表历史时期气象灾害导致农作物减产的真实情况。在农业气象学中,过去常用的
根据“不可能三角”的理论假说,我们只能选择资产证券化、金融稳定与银行低风险承担之间的其中两项,而放弃第三项。在新常态背景下,资产证券化创新已经提速,其与金融稳定的组合将
<正> 对于体积变化的敏感程度是决定一个雕塑家素质及雕塑修养的关键。在雕塑专业的教学中,培养学生对形体的敏感,即眼睛对形体的触觉意识,是非常重要的。对这种感受能力的培
农村土地综合整治是保护耕地、实施“藏粮于地”战略的有效举措,是改善农业生产、农民生活、农村生态的重要抓手,更是保障用地和促进经济社会可持续发展的有效手段。随着桐乡