基于注意力机制利用序列信息预测蛋白质相互作用的卷积神经网络模型研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:lyyzk09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,利用蛋白质序列信息预测蛋白质相互作用(PPIs)的方法由于无需先验知识,且避免了传统生物实验方法耗时费力的弊端得到了广大的关注。如何对蛋白质序列进行有效地特征提取以及如何构建预测效果良好的机器学习分类器模型是目前基于序列预测蛋白质相互作用研究面临的最大问题。因此,本文从优化序列编码方法,改进分类模型的两个角度提出基于注意力机制的卷积神经网络模型,主要工作概括如下:(1)针对已有的联合三联体,局部描述符,自协方差,序列矩阵四种蛋白质序列编码方法将蛋白质序列编码为固定长度,并和传统的机器学习算法包括k邻近,支持向量机,决策树,随机森林相结合构建16种传统机器学习分类模型,以及基于以上四种编码方法分别构建4种深度神经网络模型。(2)本研究提出基于注意力机制的卷积神经网络模型,该模型将蛋白质的两条序列进行简单编码后,分别输入到嵌入层,卷积层,注意力层,全局平均池化层,最后将两输出的特征向量合并为一条特征向量输入到全连接层,完成蛋白质相互作用的分类。在注意力层部分构建三种注意力机制,分别是基于蛋白质序列对之间的多头注意力机制,基于蛋白质对各序列内部的多头自注意力机制以及结合以上两种机制的双层注意力机制,三种注意力机制各有侧重。(3)最终,该方法通过在基准数据集上进行十折交叉验证,参数调优,在基准数据集(人类蛋白质)相互作用数据集上时,预测的准确率平均达到0.988276,ROC_AUC值平均达到0.995927;马修相关系数MCC平均达到0.976515;在预测四个外部测试数据集上,平均准确率变化范围从0.936631到0.985237;在预测线虫,果蝇,大肠杆菌三个其他物种测试集上,平均准确率分别是0.998742,0.997156,0.990894,平均ROC_AUC值分别是0.998742,0.997156,0.990894,平均马修相关系数从0.976081,0.982930和0.950668。和现有的预测蛋白质相互作用方法相比,本研究所提出的方法在预测蛋白质相互作用方面有这明显的优势,各项指标几乎均高于先前的方法。(4)此外,本课题还进行了五种不同物种之间的交叉验证,提出不同物种之间的亲缘关系假设,并构建出这五个物种的生物进化树以论证该亲缘关系,尤其是人和鼠的亲缘关系。
其他文献
随着现代建筑科技的发展,居民在室内活动和工作的时间也越来越长,人们对建筑物内空气质量提出了更高的要求。新风系统可以对进入室内的空气进行过滤、消毒、杀菌、增氧、预冷、预热等处理,为室内补充新鲜有氧的清新空气。在物联网技术的带动下,越来越多的家居电器实现了与互联网的互通互联,但目前多数应用仅限于家庭局域网。由于我国新风系统发展较晚,与互联网有机结合较少,多数新风系统还未实现云端远程控制和数据集中统一管
红外和可见光成像技术在军事、医疗、安防、交通、电力等领域都有着广泛的应用。图像融合旨在综合多模态图像表征的关键互补信息,创建信息更加全面和完整的融合图像。因此,红外和可见光图像融合既有助于丰富人类视觉理解和提升模式识别效果,又能够推动红外和可见光成像技术的进一步应用发展,具有重要的研究意义和应用价值。为满足实际应用要求,本文利用深度学习技术深入挖掘了多模态图像的语义信息,开展了基于深度学习的红外和
现有很多基于WiFi的室内定位技术能够在实验室环境下达到较高精度。但是由于室内场景日趋规模化,室内定位算法从实验室环境迁移到大型复杂环境需要解决新的技术问题,即高成本的指纹库构建。目前已有研究半监督条件自编码器SCVAE(SCVAE,Semi-supervised Conditional Variational Auto-Encoder)致力于构建低成本、高密度的虚拟指纹库解决这一问题,但由虚拟指
现如今,随着工业化和信息化的逐渐融合,科学技术与产业技术呈现出越来越明显的交融态势,以机器人系统为代表的智能化产业不断繁荣起来,在应对高度危险的辐射环境、应急救援以及新冠肺炎疫情防控中都有着重要的作用。利用机械臂进行抓捕操作,是机器人系统的重要应用手段之一。由于机械臂的抓捕范围有限,抓捕实验的第一步是利用视觉导航功能,使机器人运动到离目标物体较近的距离。在机械臂抓捕范围之内,还需要利用位姿估算法识
近年以来,我国对海洋领域的开发和管理一直在快速发展,对海洋信息的利用正不断成为我国发展的战略核心。数据作为海洋信息研究的核心和关键,其质量和精度往往会影响对海洋信息的分析,我国对海洋数据的采集主要依赖海测舰船上的多种传感器设备,但目前仍缺乏一种有效的方法对舰船多传感器采集的海洋数据进行实时融合以提升传感器采集精度。海测传感器在进行数据采集过程中往往要面对采集环境复杂,设备故障等多种问题,导致采集数
近年来,我国在海洋信息领域的研究和开发正处于快速发展阶段,海洋数据的高效处理和应用是促进海洋科技进一步发展和获取国际竞争优势的关键。目前海洋数据呈现出时空关联性强,格式种类多样的特点,带来了异源数据分析难度大、处理效率低等问题,同时现有的舰载海洋数据处理系统仍处于起步阶段,机器学习理论在海洋数据处理和分析的研究较少,因此通过机器学习理论提高海洋数据处理系统实时处理和分析的效率,对我国海洋强国的建设
医学图像分割是医学图像处理与分析领域一个复杂而关键的步骤,其目的是将医学图像中具有特殊含义的部分分割出来,并提取相关特征,为临床诊疗和病理学研究提供可靠的依据,辅助医生做出更为准确的诊断。近年来,由于深度学习算法在医学图像分割中的应用,医学图像分割技术取得了显著的进展,本文在此基础上进行了深入研究,致力于提高胸腔X射线图像的诊断精度,主要提出了两种方法:多支柱卷积神经网络和病灶专注网络。由于人体的
高动态范围(High Dynamic Range,HDR)图像具有较强的场景动态范围表现能力,在航空遥感和医疗成像等领域得到了广泛应用。但由于采集、传输和显示等设备的限制导致接收端的HDR图像质量退化,因此建立有效的HDR图像质量评价方法具有重要意义。目前,可采用支持向量机或者k-means等传统机器学习方法对HDR图像进行图像质量评价,但由于传统机器学习技术仅利用浅层架构,无法高度模仿人类视觉感
认知雷达相比于传统雷达有更强的环境自适应能力,其中通过感知环境并实时优化发射的波形是实现自适应的重要途径。通过认知波形优化方法,雷达能够提升目标探测效果。研究基于深度强化学习的认知雷达波形选择方法,对于推进认知雷达的智能化水平具有重要意义。论文设计了基于深度强化学习(DRL)的认知雷达波形选择(优化)方法框架。为解决传统强化学习对环境的感知和表示能力不足的问题,利用DRL来适应雷达任务复杂多变电磁
光场成像技术通过微透镜阵列结构可以实现对真实场景的光场捕获,以其拍摄简单、视点连续、色彩逼真的特点逐渐获得了消费者的青睐。然而,在网络带宽受限的情况下,如何对光场相机拍摄的光场图像进行有效地编码成为亟需解决的难题。光场图像拥有一些不同于传统自然图像的特点。因此,对光场图像的编码压缩需要在传统图像编码标准的基础上提出新的理论和技术。基于此背景,本文针对光场图像编码技术,利用卷积神经网络从亮度分量变分