基于集成学习和迁移学习的蛋白质泛素化和类泛素化位点预测研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:lwb3344
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质泛素化是一类典型的翻译后修饰(PTM),它承担着调节生命活动的重要作用,研究发现泛素化影响着细胞凋亡、细胞增殖和信号转导;蛋白质SUMO化是一类与泛素化非常相似的翻译后修饰,研究发现SUMO化与基因定位、基因表达和基因组复制有关。在过去的二十年里,机器学习相关算法已被广泛地认为是预测蛋白质泛素化与SUMO化位点的有效计算方法。依据机器学习算法开发计算工具需要特征工程,现存工具一般依靠先验知识人工选择符合特定问题的特征,这些特征不具备一般性,导致其模型可解释性弱。并且现存工具不能适应时下日益增长的数据规模。上述因素促使本文提出了一个基于深度学习算法、有能力处理大规模数据量的蛋白质泛素化位点预测工具,其模型集成了七个包含卷积层与全连接层的有监督学习子模型,这些子模型可以从蛋白质序列特征和理化属性特征中提取深度表示。在本文中,402个理化属性特征被分为6个聚类簇,每一个簇中的高相关性特征都被相应地定制了子模型的深层网络架构来处理。然后,使用一个Stacking集成学习策略来综合每一个子网的深度表示以完成预测蛋白质泛素化位点的工作。此外,迁移学习技术的引入使本文提出的深度学习模型在微调后也可以很好地适用于蛋白质SUMO化位点的预测工作。最后,本文所提出的模型在高质量的注释蛋白质数据库Uniprot/Swiss-Prot上,预测表现明显优于一些被广泛使用的知名蛋白质泛素化和SUMO化位点预测模型,其精度、敏感性、特异性、MCC、F1分别达到了19.24%、74.49%、74.93%、0.287、0.303和28.61%、84.36%、83.99%、0.431、0.426。搭建模型所用源代码和训练与测试模型所用的全部数据资源可从网址https://github.com/ruiwcoding/Deep Ubi Sumo Pre处免费获得。
其他文献
“农村稳则天下安,农业兴则基础牢”,山东省农业经济发展总量居全国领先地位。从根本上来看,主要得益于农地产权制度变迁加速了农业要素禀赋和产业结构的调整与升级,农业内生
随着国内期货市场的蓬勃发展,期货市场的电子交易系统也层出不穷。在期货会员交易系统方面,日常的运维软件并没有得到相当的重视。针对这个情况,作者以某期货会员交易系统的运维软件的情况为样板,总结了运维操作的几种模式,并通过实际的工作情况,分析了这套系统存在的缺陷和问题。然后,作者针对上述的缺陷和问题,并结合其他需求,提出了一种新的模式——可扩展的、半自动的运维模式,力求做到通过简单的界面操作,可以帮助用
乙烯装置作为石油化工生产企业的关键装置具有非常重要的地位。在国内外,在评定化工企业规模时,我们常以乙烯生产能力作为重要指标,乙烯产量也是衡量一个国家的综合炼化工业
聚类和推荐系统的应用需要用户相似性这一参数,目前有多种方法度量用户的相似性,基于轨迹数据的方法是其中重要方法之一。随着位置获取技术的日益普及,例如GPS和Wi-Fi,大量的用户轨迹数据被获取,这使得该方法成为当前研究的热点。目前,大部分基于轨迹的用户相似性研究主要应用在社区网络领域,在物理世界的应用鲜见报道。校园网由于其用户的渗透性和多样性,是研究无线局域网用户行为模式的良好平台。在上述背景下,本
在公有区块链中,用来决定区块链网络中各个区块的签署权达成一致性认同的共识算法建立在奖励机制上,然而应用在非公有链的共识算法不适合建立在奖励机制上,因为在私有链和联
ADP-葡萄糖焦磷酸化酶(AGPase)是淀粉生物合成中的关键酶,由成对的两个大亚基(AGPL)和成对的两个小亚基(AGPS)组成的异源四聚体,分为胞质型和质体型两种,因此,在植物细胞内存在四类AGPase亚基:AGPase胞质型大亚基(AGPL1)、胞质型小亚基(AGPS1)、质体型大亚基(AGPL2)和质体型小亚基(AGPS2)。课题组前期研究结果表明,小麦淀粉合成基因TaAGPL1的过表达能
随着人们出行需求的增加和宽带多媒体业务的发展,越来越多的用户有着在高速移动通信场景下的通信需求。同时,由于高速移动带来的快速时变信道以及如高速列车特殊材料的车体带
供件Object Access Agent(OAA)是一种面向“物计算”的新型软件运行环境技术理念,提供了应用运行支撑环境与服务应用开发方法,可提高应用开发的重用性和扩展性。但OAA技术尚
本文以西藏革吉县嘎拉勒矽卡岩型铜金矿床为研究对象,在矿区地质填图(1:2000)基础上,结合前人研究资料,对该矿床地质特征和控矿条件进行了系统阐述,分析探讨了典型镁质矽卡岩的矿物学特征、成矿岩体的地球化学特征和岩石成因,查明了成矿流体性质和来源,厘定了成矿驱动机制,并初步建立了矿床的可能成矿模型。矿区内出露地层厘定为下白垩统捷嘎组白云岩和白云质灰岩,其下伏为下白垩统郎久组砂岩、粉砂岩和流紋质-英安
压缩感知理论带来了一种全新的信号采样方式。当信号本身或在某个变换域具有足够稀疏的表示时,能够以低于奈奎斯特定理要求的采样率对信号进行采样,并对其完美地重建。对于用