基于特征学习的蛋白质亚细胞位置分类研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:ljmldblh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是所有生命体的物质基础,是生命活动的主要承担者。因此,蛋白质组学已经成为人类基因组计划中基因功能性探索的核心研究工作,其中研究各种蛋白质在细胞环境中的作用则是其主要任务。蛋白质功能与其在细胞中所处的位置息息相关,蛋白质在细胞中的核糖体内合成后,根据其功能和特性被转运到特定的细胞器官即亚细胞结构,从而主导细胞的生命特性和整个生命机体的正常运转。因此,蛋白质亚细胞定位研究对了解蛋白质功能、研究细胞代谢运动、人类疾病诊断和新药物研发等方面有着重要意义。近年来,随着荧光显微镜技术的飞速发展,高通量荧光显微镜已经可以自动快速的产生大量多标记荧光蛋白质细胞图像。与传统生物实验或基于氨基酸序列研究相比,多标记荧光蛋白质细胞图像能够将特定蛋白质在细胞中的位置分布准确直观地显现研究。但由于多标记荧光蛋白的混合成像模式,以及部分亚细胞结构成像十分微小等问题,荧光图像中多标记蛋白质的亚细胞结构自动分类模型精度还远比不上专家级的人工标注。本文围绕这一任务,针对多标记荧光蛋白质细胞图像的特征提取模型与多标签分类算法进行研究,提出一种新的有监督特征学习预测模型,在公开数据集上进行实验证明了该模型的优越性,其分类性能优于常用的人工特征亚细胞定位特征集SLFs。本文工作主要为以下方面:(1)详细分析本文所选的人类蛋白质图库HPA的细胞图像数据集,并根据其相关特点进行针对性的数据增广与预处理。选用当前流行的BN-Inception卷积网络结构对图像进行特征学习与提取,结合多标签分类算法中常用的交叉熵损失函数BCELoss对模型进行分类训练。以BN-Inception+BCELoss组合作为本文的基础特征学习模型,通过实验证实该模型的有效性,并以此作为本文网络结构与分类算法的改进基础。(2)根据HPA细胞图像为细粒度图像的特点,介绍并分析了双线性卷积神经网络B-CNN提取细粒度特征的原理,并基于该原理将本文基础网络BN-Inception改进为BF-BNInception网络。该网络通过抽取中间层特征图作为辅助信息的方法,将B-CNN双网络结构改进为单网络结构的同时保持了对细粒度特征提取的有效性,大大减少模型参数的同时提高了分类性能。(3)针对HPA细胞图像数据集中的类别不平衡问题,提出一种可平滑调节的类别权重因子,并将其结合到用于目标检测任务的焦点损失函数FLoss,成为一种多标签分类任务的损失函数BFLoss。将基础分类损失BCELoss替换为本文提出的BFLoss损失,有效缓解了类别不平衡问题对模型训练的影响。(4)对两个改进方法分别进行对比实验,证明改进方法的有效性及其对性能的提升程度。将两个改进结合提出本文的最终模型BF-BNInception+BFLoss,通过与基础特征学习模型BN-Inceptaion+BCELoss的对比实验验证本文针对HPA细胞图像数据集总体改进的有效性。实验结果表明,相比基于手工设定亚细胞定位特征的分类模型,最终模型BF-BNInception+BFLoss大大提高荧光细胞图像的蛋白质亚细胞位置分类精度。本文提出的特征学习模型有助于高通量荧光显微镜快速生成的大批量荧光蛋白图像亚细胞位置注释任务,克服了传统模型自动注释精度不足的缺陷,在生物信息科学研究中具有一定的学术价值。
其他文献
目前地铁可以说是最为绿色环保的交通方式,能给大家带来更为便捷快速舒适的出行体验。随着各大城市地铁线路的增加,乘坐地铁出行的人也在逐渐增加,这样既避免污染环境,也避免
溴氧化秘(Bismuth oxide bromide,BiOBr)具有层状结构和合适的禁带宽度,是一种可见光催化剂。钒酸镧(Lanthanum vanadium oxide,LaVO4)是一种重要的荧光类材料,也具有一定光
氧化镓(Ga_2O_3)是一种新型的宽禁带透明导电半导体,具有五种已知的同分异构体。Ga_2O_3因其4.4~5.3e V的超宽带隙、高击穿场强、大的巴利加优值、气敏特性、紫外响应特性以及良好的热稳定性和化学稳定性等优异特性,被广泛应用于气敏传感器、日盲紫外光电探测器、高功率电力电子器件等领域。因目前Ga_2O_3同质衬底尺寸有限且价格昂贵,对于高质量Ga_2O_3薄膜的异质外延的研究至关重要。特
随着科技不断发展,新媒体时代的到来为媒体传播开辟了新途径,进而为电视节目的播放提供更为广阔的空间。传统媒体在发展美食节目上以不同的形态出现在各类媒体传播媒介上,深受大众的喜爱。Y市电视台资源较弱,与上级电视台竞争力不足、与同级电视台优势不够明显,为应对激烈的传媒竞争,提升收视率,Y市电视台美食节目必须进行创新,努力提升其营销策略显得尤为重要。本文以Y市电视美食节目营销策略为研究内容,在现代媒体营销
本文在热解火焰法合成碳纳米管研究经验的基础上,对铁基催化剂做了更加细致深入的研究。首先探讨氢气的变动对铁基催化剂的催化效果的影响,以此来找到最适合铁基催化剂催化的
道路客运作为关乎民生的行业,它的发展与经济的增长密不可分,所以常被称作宏观经济“风向标”。我国道路客运企业大多由上世纪传统国有企业演变而来,在历史环境的影响下,存在管理模式落后且固化、风险感应差等问题。在新形势下,道路客运企业面对越来越复杂的内外部环境变化,来自内外部纷繁复杂的风险势必会影响企业发展,所以企业必须提高风险管理水平。在这种背景下,企业管理的重中之重应逐步向内部控制转变,以保障生产经营
沥青罐作为一种加热和储存沥青的设备,是沥青搅拌站重要部件之一。采用电加热可有效解决沥青搅拌站的环境污染和能耗问题,但由于电加热沥青罐存在升温速度慢、电功率配置高等不足,导致沥青搅拌站装机负载加大、使用成本增加,在国内难以得到广泛使用。因此,对电加热沥青罐功率配置进行深入研究,减小沥青搅拌站装机功率,对实现节能减排有着重要的意义。本文首先论述了卧式和立式电加热沥青罐结构特点和工作原理,分析了常用电加
高速公路里程的逐年增长及汽车保有量的增加大大推动了社会经济的发展和人民生活水平的提高。与此同时,造成的交通问题也日益突出,尤其是交通事故带来了巨大的生命和财产损失。如果不能及时对交通事故进行应急处置,则可能影响交通通行导致交通堵塞,甚至引发火灾、爆炸等更大规模事件,造成巨大损失。由于交通事故发生时会在时间和空间维度产生影响,挖掘事故发生后的时空演化规律有助于交通管理部门有针对性地制定应急措施,从而
用户认证机制是对用户真实身份的确认过程,是实现系统其它安全策略的前提和保障。作为一种新兴的商业服务模式,云计算用户规模和认证需求巨大,对认证服务安全性和效率方面的
在包含肩关节的三维CT人体图像中,肱骨、肩胛骨和锁骨距离非常接近,传统的骨分割方法很容易将多根骨头分割在一起;此外,由于不同骨头之间及同一骨头内部的CT值差异很大,导致