基于深度学习的蛋白质亚细胞定位预测方法研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:jojoy9912004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的爆炸式发展,蛋白质组学的研究进入了后基因组时代。蛋白质亚细胞定位预测研究作为蛋白质组学的热点问题和重要内容,对于研究人类某些疾病的发病原理和药物设计等具有重要指导意义。本文针对蛋白质亚细胞定位预测准确率难以得到有效提升这一问题,研究了基于深度学习算法融合的蛋白质亚细胞定位预测方法,并结合序列数据特点进一步讨论了基于定位位点生成蛋白质序列问题,本文的主要研究内容如下:首先,针对传统的浅层机器学习算法不能对蛋白质序列数据的内在特征信息进行深度挖掘的问题,提出基于深度集成支持向量机(Support Vector Machine,SVM)模型的蛋白质亚细胞定位预测方法。该方法首先利用深度置信网络对蛋白质序列数据进行深度特征表征,然后引入基于Bagging算法的集成学习策略,构建基于深度特征提取的集成SVM模型,以利用不同模型的差异性提升泛化能力。在Deep Loc蛋白质数据集上的预测结果表明,该方法比传统SVM方法具有更好的预测性能。其次,针对蛋白质序列的高度非线性、不等长等特点,提出一种基于分布式编码的卷积循环自注意力机制的蛋白质亚细胞定位预测方法。首先利用蛋白质数据库序列数据进行无监督学习来训练词向量,然后利用卷积神经网络和长短期记忆网络(Long Short-Term Memory,LSTM)提取非线性特征。为了综合考虑长序列特征信息,加入了自注意力机制学习全局特征。另外,考虑到资源以及训练效率问题,设计出时间卷积神经网络来替换LSTM,解决了资源得不到充分利用问题。在Deep Loc蛋白质数据集上的预测结果表明两种策略均不同程度提升了总体准确率。然后,针对目前蛋白质数据库存在大量未标注数据问题,研究了一种基于条件对抗网络域适应的蛋白质亚细胞定位预测方法。首先定义源域数据与目标域数据,然后根据网络模型学习不同域的数据之间的公共特征表示,最后根据在源域数据的训练结果去预测未标记的目标域序列数据。进一步的,为了避免针对不同数据分布的序列从头训练学习,提出一种基于语言模型的蛋白质亚细胞定位预测方法。最后在SWISS-PROT数据上预测结果表明两种策略的有效性与先进性。最后,针对蛋白质序列数据在特定亚细胞定位位点处难以有效生成问题,提出了一种基于反馈生成对抗网络模型的蛋白质序列生成算法。首先利用强化学习Policy Gradient思想去解决蛋白质序列生成中难以反向传播问题,然后为了保证生成序列的高质量,提出一种实时反馈生成的方法。最后利用序列编辑距离方法证明了生成的蛋白质亚细胞序列的有效性。
其他文献
天然气作为一种清洁能源其需求量与日俱增。由于天然气输气管道管容的存在以及天然气用户的用气量和上游天然气供气量的不确定性和时变性,天然气分输站控普遍存在控制精度差、调节速度慢、无法长期稳定优化运行的问题。论文以实现长期稳定运行为目标,建立了基于SPS仿真环境的天然气分输控制过程模型;针对天然气需求峰值时流量大范围调整造成的参数整定困难问题,利用遗传算法进行PID参数整定实现了需求高峰时段流量的PID
随着制造业产业结构的调整,工业机器人在诸多领域得到了广泛的应用,工业生产趋于自动化、智能化。现代智能制造新理念对工业机器人提出诸多新要求,工业机器人的技术研究是提升我国智能制造水平的重要手段。本文以SA1400型六轴工业机器人为研究对象,基于ROS系统对六轴工业机器人的运动学、轨迹规划、避障规划以及虚拟仿真技术进行分析研究。论文主要研究内容如下:(1)研究了SA1400型机器人运动学模型以及机器人
近年来,随着全球经济的快速发展,人类对于电力资源的需求日益增加。核电作为电力资源的重要组成部分,加上其若发生意外造成的灾难性后果,人们对核电设备的安全性越来越重视。因此,需要采取更有效的措施来观察核电系统的运行状态,规避风险确保核电设备的正常运行。如何更准确的预测核电设备的运行状态成为亟待解决的问题。本文通过查阅国内外相关文献和资料,了解当前常见的数据去噪算法,并结合核电数据的特性,对原数据进行有
环境中湿度的检测与人们生产生活一直保持紧密的关系,在农业生产、环境检测、仪器仪表维护、食品储藏、天气变化、生物学等方面均息息相关。在人们日常生活中,空气中湿度含量大小也对人体身体健康有着极大的影响。因此,针对湿度含量需要采取有效的检测方法进行测定。构建便携式湿度检测系统协同新型纳米传感技术,对于实现湿度便携式、可穿戴式检测,提高居民生产生活水平具有十分重要的现实意义。本文致力于研究基于纳米材料修饰
随着城市化进程的不断加快,汽车普及率持续提高成为日常生活中最为普遍的交通工具。随之而来产生的车内空气质量问题,再加上酒驾问题的日益严重,针对车载微环境气体的相关研究也越发广泛。因此,实现对车载微环境气体的组分识别和浓度预测,对保障驾乘人员的身体健康和安全具有重要的现实意义。本论文为实现纳米修饰二硫化钨(WS_2)气敏传感器阵列协同智能优化算法模型构建车载微环境气体的检测系统,主要完成以下工作:采用
随着机器人和人工智能技术的快速发展,工业机器人也得到了迅速的发展,人们对其交互方式的多样性需求也日益增加,而人机交互界面是工业机器人交互领域的重要研究内容。传统的交互界面存在开发周期长、界面组件较少、不支持跨平台开发和没有统一的规范等缺点,而基于Qt的界面库可以实现更加快速的跨平台任务开发,弥补以往的不足。机器人操作系统(Robot Operating System,ROS)具有分布式的开源软件架
随着科学技术的发展,越来越多的可燃性气体应用于工业生产和人们的日常生活之中。但是可燃性气体给我们带来巨大便利的同时,也存在着极大的安全隐患。可燃性气体泄露所引发的安全事故给国家及社会造成了不可估量的损失,因此快速高效地检测可燃性气体对于保护生命财产和公共安全有着极其重要的意义。本文基于硫化铅量子点掺杂的纳米复合薄膜,构筑出基于Zn O/Pb S QDs的乙醇气敏传感器、基于Fe_2O_3/PANI
近年来,随着社会经济水平的飞速提升和工业信息化进程的加快,人们生产生活用电量大幅增加。我国的主要发电方式是煤炭发电,发电量需求的增加,导致煤炭消费数量提高,从而使得火电厂烟气排放大幅增加,环境污染问题日益严峻。随着国家对火电厂烟气排放的标准不断提高,因此急需研制多种高性能气敏传感器来实现对火电厂排放烟气的高精度检测。还原氧化石墨烯(r GO)、金属有机框架(MOFs)衍生金属氧化物及异质结型金属氧
工业机器人为了完成运动规划,其控制系统需要实时发送大量的位置信息给各个轴关节驱动电机,而传统的现场总线的传输速度已无法满足该要求。工业以太网总线Ethercat由于其实时性以及同步性被广泛的应用到工业机器人通信系统中。本文基于Ethercat对工业机器人通信系统进行设计,包括Ethercat协议通讯主站和从站设计与开发。(1)工业以太网Ethercat协议分析及整体方案设计。详细分析了Etherc
电力供应稳定和电力设备安全是保障经济和社会生活运行的重要条件。锈蚀会引起电力设备故障,影响电力系统的安全运行。但目前电力设备锈迹检测方式仍以人工检查为主,成本高、效率低,且不能及时反馈。因而如何便捷高效的检测出各种电力设备中锈迹所在的位置,减少因锈迹产生的故障损失及次生损失,是当前保障电网系统安全运作亟待解决的问题。近年来,深度学习技术在图像处理领域取得了突出成果,但由于电力设备上锈迹大小不一、形