基于深度学习的蛋白质亚细胞定位方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:fengsuiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质亚细胞定位研究是蛋白质组学的重要内容同时也是生物信息学的热点问题。可视化细胞中蛋白质的图像通常用于生物医学研究,对研究某些疾病的发病机理、药物设计和发现具有重要意义,这些细胞可以成为下一个医学突破的关键。当前的图像层次的蛋白质亚细胞定位研究方法主要有基于传统机器学习和基于深度学习两种。基于传统机器学习的方法需要人工提取特征,费时费力,不能实现自动化蛋白质亚细胞定位;当前基于深度学习的方法普遍只针对某一种特定的细胞类型,不具有普适性,对于蛋白质亚细胞定位中存在的多标签图像分类问题,需要为每种亚细胞单独设计神经网络,细胞中的亚细胞结构较多使得当前基于深度学习的方法缺乏灵活性。以此为背景,针对当前基于深度学习的蛋白质亚细胞定位方法存在的不足,本课题对蛋白质亚细胞定位问题抽象出的多标签图像分类问题进行研究,调研并实现三种经典的用于解决多标签图像分类问题的深度学习方法以解决蛋白质亚细胞定位中的多标签图像分类问题,并提出只需使用蛋白质染色图像作为输入,既能解决亚细胞标签与标签的依赖问题,又能解决亚细胞标签与染色图像对应区域依赖问题的融合模型,从而提升蛋白质的亚细胞定位效果。主要工作如下:1)调研并实现三种基于深度学习的多标签图像分类方法CNN_RNN、SRN和ML_GCN并将其应用于蛋白质亚细胞定位问题,针对CNN_RNN的不足提出改进的CNN_LSTM,利用LSTM的记忆单元同时学习蛋白质亚细胞染色图像特征和亚细胞标签依赖特征,提升蛋白质亚细胞定位效果,通过实验表明CNN_LSTM优于CNN_RNN。2)通过分析三种模型CNN_LSTM、SRN和ML_GCN各自的优势和不足,即CNN_LSTM和ML_GCN只解决多标签分类问题中的标签和标签依赖、SRN只解决多标签分类问题中的标签和图像对应区域依赖。通过神经网络多端输入融合的方法来融合模型的优势,提出两种融合模型LSTM_SRN(融合CNN_LSTM和SRN)和GC_SRN(融合ML_GCN和SRN)。通过实验表明提出的两种模型均提升了蛋白质亚细胞定位效果,两种模型中GC_SRN效果最好,且优于同一数据集上的其他方法。3)针对蛋白质亚细胞定位中存在的亚细胞类别样本数量不均衡问题,使用Focal Loss改进二分类交叉熵损失函数,减少易分类亚细胞样本的权重,使得模型在训练时更专注于难分类的亚细胞样本,同时可以解决训练样本的不均衡问题;针对GC_SRN的模型优化,包括模型量化和模型压缩。通过对训练好的模型使用INT8量化,在损失较少模型精度的条件下大幅提高模型的推断速度,同时也相当于对模型添加了正则化,一定程度上避免了过拟合。通过利用通道剪枝,移除模型中对模型性能无关紧要的网络通道,减少模型参数,从而提高模型的推断速度,减少模型占用内存。
其他文献
依存句法分析是自然语言处理中的一项重要任务,主要包括基于图的和基于转移的两种分析方法。目前基于转移的依存句法分析方法大多采用BiLSTM模型,它虽然可以捕获句子中双向较长距离的依存关系,但是存在以下问题:1)模型复杂、计算量大,导致训练时间过长;2)当中心词和依存词距离大时准确率偏低。针对以上问题,本文的主要工作如下:(1)针对模型训练时间长的问题,本文在经典BiLSTM模型的基础上提出BiLST
在经济飞速发展的今天,高速的生活方式催生了一大批亚健康的人群,随着信息的膨胀与生活理念的改变,人们对于健康愈加重视,室内运动需求日益增大。但是室内场地的局限性,室内器材健身很大程度上缺乏趣味,且个人运动无法提供很好的运动建议。针对这些问题,本文以跑步机为例,搭建虚拟场景模拟户外环境,从外观造型、应用界面以及健身指导等方面进行研究,旨在追求更人性化的设计,更安全的用户体验。1、本文搭建了由跑步机、安
近年来,基于位置的服务快速发展,室内位置服务所需的室内定位技术成为研究热点。室内环境中无法接收GNSS信号,而其他定位手段,如蓝牙、Wi Fi、RFID、超宽带等均具有明显的缺点。在此条件下,伪卫星技术由于其具有精度高、与GNSS信号兼容、室内外切换方便等优点,成为具有广阔研究前景的室内定位技术。但是目前伪卫星技术在室内定位中面临着信号易被遮挡、多径效应、时间同步等问题,发展受到一定限制。通过分析
协作机器人关节力感知能力是指协作机器人对外界力信息的感知和测量能力,是协作机器人完成力交互与力控制的基础。目前大部分研究常使用模块化关节力矩传感器完成力信息的感知。但利用模块化关节力矩传感器不仅需要处理好机器人整体刚性问题,而且需要处理好模块化关节力矩传感器带来的位置精度问题。注意到谐波减速器作为协作机器人关节内的核心传动零件,十分适合作为协作机器人力感知能力的实现载体。因此,本文以谐波减速器为主
人们在使用普通的设备获取图像时通常只会保存场景的二维信息,丢失场景的深度信息,但实际上深度信息对于一些视觉方面的研究工作有着非常重要的作用。深度估计可以用于三维建模、场景理解、深度感知等领域。随着虚拟现实,自动驾驶,3D电影等应用场景的不断普及,技术上对三维层面信息的需求越来越强烈。在单目深度估计上仍然存在很多问题,深度真值获取困难、成本昂贵;单幅图像的特征有限,特征的局限性增加了训练的难度。本文
脑是人体重要的器官,对人的生命健康起到至关重要的作用。在医学成像技术中,磁共振图像(Magnetic Resonance Imaging,MRI)具有高分辨率、辐射小等优点,因此被广泛应用于医疗诊断与治疗。脑图像分割在脑疾病的诊断、病理组织的定位和治疗方面具有重要的指导意义。因此,实现脑MRI的自动分割对医学辅助诊断具有重要的指导意义。本文的研究目标是将脑MRI中的脑脊液、灰质和白质三种组织液实现
铁路是我国经济发展的大动脉,随着铁路基建加码至历史极值,中国已然进入高铁时代,影响着人们日常的生活习惯与方式,铁路成为地区、城市间出行的重要方式。铁路建设不仅会对铁路周边原有的环境造成严重污染和破坏,铁路的标准化建设也使得铁路沿线的景观形成同质化的视觉景观效果,失去场地原有的地域特色和城市的形象魅力。对铁路沿线景观视觉环境的分析与规划控制不仅能够对周边环境进行保护与恢复,而且能够提升沿线景观视觉和
研究背景:校园欺凌在中学生群体中屡屡发生,已经成为社会广泛关注的公共卫生问题。根据2017年联合国教科文组织最新发布的全球校园欺凌现状调查报告显示,全球的校园欺凌问题非常严重,每年有接近2.5亿的孩子遭受校园欺凌。在中国,校园欺凌的现象普遍存在于中学生的日常生活中,2017年由中国应急管理学会校园安全专业委员会发布的《中国校园欺凌调查报告》显示,在我国的校园欺凌事件当中,受欺凌学生已达到1/4。校
吸附法是处理水体中污染物的常见方法。常用的吸附材料如活性炭和高分子材料等使用成本较高。利用农村废弃物作为吸附剂处理印染废水不仅成本低操作容易,还能实现废弃物的资源化利用,是一种可能的替代方法。本文选用三种农村废弃物稻壳、木屑和玉米芯作为吸附剂,常见的阳离子染料亚甲基蓝和阴离子染料甲基橙作为吸附质,研究三种吸附剂对水体中亚甲基蓝和甲基橙的吸附性能。采用扫描电镜(SEM)、N2吸附脱附法、傅里叶变换红
Spark大数据处理框架广泛应用于大数据领域,默认采用基于同构集群的调度策略,考虑数据中心的异构服务器集群更符合实际应用。数据亲和性考虑任务及其数据尽量距离相近以减少数据的网络传输代价。本文基于异构集群考虑数据亲和性的Spark任务调度问题,最小化最大完工时间。该问题的主要挑战有:(1)如何在Job、Stage构成的复杂DAG中找到合适的Stage拓扑顺序以期得到最优解;(2)如何平衡相互矛盾的数