基于多类型特征深度学习的lncRNA-蛋白质相互作用预测研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:chenyuxun2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长链非编码RNA(lncRNA)在许多关键的生命活动中起着至关重要的地位,并可以通过与蛋白质的相互作用参与复杂的人类活动。因此,精准地对lncRNA-蛋白质相互作用进行预测在了解lncRNA与细胞调控、基因表达以及各种疾病发病机理之间关系的问题发挥着重要的作用。由于在实际研究中,通过高通量生物实验来鉴定lncRNA-蛋白质相互作用的方法耗时且昂贵。因此,寻找一种基于计算的方法来预测lncRNA-蛋白质相互作用越来越受到科研人员的青睐。现有的基于计算来预测lncRNA-蛋白质相互作用的方法主要可以分为基于网络和基于传统机器学习的方法。基于网络的方法要求网络中的两个节点之间至少存在一个链接。但是由于lncRNA-蛋白质相互作用网络通常是由几个孤立的子网络组成,所以网络中每个节点度分布的不平衡会影响网络的预测性能。基于传统机器学习的方法对手工设计特征的质量非常依赖,当特征选择不佳时,会对模型预测效果产生极大的负面效果。因此本文以预测lncRNA和蛋白质相互作用为研究对象,基于深度学习算法将多类型特征融合在一起,从多方面对lncRNA-蛋白质相互作用进行预测。在预测lncRNA-蛋白质相互作用的研究中,我们提出了一种基于多类型特征深度学习的模型(LGFC-CNN)。该模型通过将全局序列特征、局部序列特征、手工设计特征和结构特征融合在一起以达到全面预测lncRNA-蛋白质相互作用。首先将最初用于预测RNA-蛋白质结合位点的序列预处理方法进行改进,并且基于此使用one-hot编码方式和两个深度学习模块(GloCNN和LocCNN)来编码和提取lncRNA和蛋白质的原始序列特征。同时,多种lncRNA-蛋白质手工设计特征组合被输入到随机森林分类器进行比较,并通过分析特征组合的性能找出最能代表lncRNA和蛋白质的手工设计特征。此外,通过多种工具提取lncRNA和蛋白质的二级结构、氢键和范德华相互作用,并通过傅里叶变换统一特征尺寸作为相应的结构特征。为了解决随机配对造成负样本不合理的问题,我们还设计了基于相似性的负样本生成策略。最后,四个基本模块集成最终模型以全面预测lncRNA-蛋白质相互作用。所提出的模型在三个lncRNA-蛋白质相互作用数据集上与其他优秀方法进行比较,在数据集RPI21850上取得了94.14%的准确率;在数据集RPI7317上取得92.94%的准确率;在RPI1847上取得98.19%的准确率,均优于现有的预测方法。除此之外,通过多组对比实验证明了文中所提出的负样本生成策略的有效性以及LGFC-CNN结合多类型特征的策略是合理且有效的。本文的主要贡献如下:(1)提出了一种基于深度学习的分类模型,并且以此为基础融合多类型特征来预测lncRNA-蛋白质相互作用,在性能上优于传统机器学习算法和其他深度学习算法。(2)提出了一种负样本生成策略,降低了随机匹配生成负样本所造成的负样本可靠性差的问题。(3)改进了一种RNA序列预处理方法,使其可以适应lncRNA和蛋白质序列,并以此为基础获得高质量的lncRNA和蛋白质全局和局部序列特征。(4)与高通量生物实验验证lncRNA-蛋白质相互作用的方法相比,我们的模型在耗时和花销上存在着明显优势,并且所预测的lncRNA-蛋白质相互作用更具有统计学意义。
其他文献
随着科学技术的发展,建筑施工企业的工程技术和安全设备都得到了进一步地完善,“人因”成为导致安全事故的主要原因。建筑施工现场中班组长作为建筑工人的直接领导,对建筑工人的施工工作行为的具有直接重要影响。因此,深入探析班组长安全领导力对建筑工人的安全行为的影响,不仅有利于减少建筑工人的不安全行为,还对降低安全事故发生率具有重要意义。基于事故因果连锁理论、SOR理论和社会学习理论,引入安全意识和安全自我效
学位
以某高校宿舍建筑物为研究对象,利用FDS火灾模拟软件并通过定性分析和动态模拟结合的方法研究了不同排烟速率和火源功率下的宿舍火灾过程,从烟气扩散规律、能见度和CO浓度分布等不同角度研究高校宿舍发生火灾时的环境参数的变化规律。结果表明,不同火源功率下,烟气蔓延扩散规律大致相同;相同火源功率下,安装机械排烟装置可以明显减少烟气量,延缓烟气的扩散,有助于人员的安全疏散。可根据火灾风险分布特征,在宿舍等多层
期刊
近几年,随着建筑信息建模(BIM)、物联网、大数据等数字技术在提升建筑业生产效率、保障建筑业质量和增强建筑业竞争力等方面显示出越来越重要的作用,建筑业数字化转型已成为一种必然的发展趋势。因此,能否率先实现数字化转型也成为建筑企业寻找新的发展模式,实现高质量发展的重要驱动力。推动建筑业数字化转型,需要持续增强BIM、云计算、物联网等数字技术在建筑项目中的集成应用,不断提升建筑业在精细管理、集约管理、
学位
目的 促进带状疱疹疫苗接种管理水平的提高。方法 将问询记录的109例带状疱疹疫苗接种者相关的A组数据与卜哲妮等《2020—2021年广东省带状疱疹疫苗疑似预防接种异常反应监测分析》报道中的有关的B组数据进行对比分析。结果 A、B两组AEFI发生率分别为68.81%(75/109)和0.20%(87/44 242),两组AEFI主要为一般反应(均大于85.00%)、AEFI发生率女性高于男性、AEF
期刊
蛋白质是生物中各类细胞和组织的重要组成部分,在各项生命活动中,起到关键作用。蛋白质在生物机体内发挥作用时,大部分时候是以多个蛋白质的共同参与为基础的。这些共同参与的蛋白质所组成的功能模块,也被称作蛋白质复合物。实验方法识别蛋白质复合物,存在成本高等问题,因此有必要使用计算方法识别蛋白质复合物。在计算方法识别蛋白质复合物的领域中,之前已经提出了许多成功的方法来检测蛋白质相互作用网络中的蛋白质复合物,
学位
抚顺市是一座因煤而城、因煤而兴、矿荣城荣、矿竭城衰的煤炭资源枯竭型城市,汽车尾气、生活污水以及因煤炭矿区生产引发的地质灾害和环境污染等城市生态环境质量问题已严重制约抚顺市经济建设、城市转型与可持续发展。因此,分析抚顺市生态环境质量影响因素,评价抚顺市生态环境质量变化趋势,找出阻碍抚顺市生态环境质量提高的障碍因素,提出有针对性的提升路径是急需解决的问题。本文在分析国内外一般城市、煤炭资源型城市生态环
学位
为探究火灾发生时CO浓度、能见度、火场温度等火灾参数的时变特性.以某老旧活动中心为例,通过Revit软件构筑该建筑物理模型,利用火灾动力学(Fire Dynamics Simulator,FDS)软件Pyrosim对3种火灾工况开展数值模拟计算.研究结果表明:窗户开启比窗户关闭在火灾CO浓度、能见度、温度到达临界时间至少分别降低41.3%、11.8%、16.3%;打开楼梯间附近窗户比打开火源处窗户
期刊
医药产业关系国计民生,是“中国制造2025”和战略性新兴产业的重点发展领域,是健康中国建设的重要基础。“十四五”规划纲要将健康中国建设放在“提高国民素质,促进人的全面发展”高度来谋划,预示着医药企业成长发展的巨大机会。医药行业具有高风险、高投入、长周期等特点,在全球股市不景气及新冠病毒肆虐全球的多重背景下,如何利用债务资金助力企业长远健康发展是值得探讨的重要问题。以康恩贝为研究对象,以异质性债务视
学位
在当前建设数字中国、加快数字化发展战略愿景引领下,云计算、大数据等互联网信息技术被运用在财务管理当中,成为一件势在必行的事情。特别是对于国有企业而言,面对全面深化改革这一全新的目标,做好财会信息化建设成为当前迫在眉睫的事情。本文主要从当前国有企业财会信息化建设概述和重要性出发,分析当前阶段国有企业进行信息化建设所面临的问题,并提出解决对策。
期刊
近年来,随着互联网的高速发展,越来越多的电子文本出现在我们的生活中。通过输入法打字进行文本产出成为了日常生活不可或缺的一部分,但随之而来的则是因误拼、错拼而产生的拼写错误,对文本质量造成了较大影响。因此如何对生成后的文本进行准确的拼写检查具有较高的现实意义。中文拼写检查是针对中文文本错误进行检测与纠正的一项工作。传统的文本校对技术面对目前的大数据量,难以进行有效处理。近年来,预训练语言模型在不同任
学位