基于深度学习的细粒度图像识别与分割研究

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:xujungang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前图像数据量正在呈指数型增长,随着图像处理技术的发展,如何有效的使用计算机视觉技术进行图像分割与图像分类已经成为计算机视觉领域中重要研究分支。传统图像分类是识别粗粒度的大类,例如使用计算机视觉技术进行区分“狗”、“葡萄”和“鸟”等元类别。而在许多实际应用中,图像需要进行细粒度级别的分类,例如区分该图像属于“葡萄”类别中的哪个子类别:“夏黑”、“红提”、“阳光玫瑰”等。在计算机视觉领域中,细粒度图像分类则是针对该类问题的一个热门研究方向,且具有真实场景下广泛的应用价值。由于细粒度图像分类中类内差异较大而类间差异较小的特点,使得细粒度图像分类成为具有挑战性的研究。然而细粒度图像分类只是获取了类别信息,通常需要辨识物体的边界及属性特征来做进一步研究,则需将目标从图像中分割出来。本文基于深度学习技术探索了细粒度图像识别与分割研究,主要工作如下:1.建立了葡萄数据集(Vitis-15):本文建立了一个小型的细粒度级别图像数据集,该图像数据是通过在武汉及云南周边果蔬大棚自然场景下人工拍摄所得,共计6389张图片,其中共包含15个葡萄子类别,由于拍摄的时间、年份及地点的不同使得该数据集具有类内差异较大及类间差异较小的特点。2.基于多尺度数据融合的细粒度图像识别:现实生活场景中的数据普遍存在数据不平衡性的问题,为了解决该问题,本文提出了多尺度数据融合方法。多尺度图像输入对于图像分类任务能够更充分的提取图像中具有判别性的信息,且数据扩增方法利于解决数据样本间的不平衡性,让分类网络能够更充分的学习到各类别的特征。针对Vitis-15数据集,采用迁移学习和卷积神经网络来分类,在Alex Net网络基础上提出了多尺度增强型Alex Net网络(MS_EAlex Net),实验结果表明,在Vitis-15数据集上MS_EAlex Net要优于当前主流的分类模型,可达99.92%。3.基于多尺度图像破坏重建的细粒度图像识别:通过Vitis-15细粒度图像分类识别任务的研究,扩展到类别数量及复杂程度更大的CUB200-2011细粒度数据集上,由于该数据集的复杂性,只用分类网络难以达到较好的识别精度。以往的细粒度图像识别大部分通过标签来进行局部定位,而通过“破坏与重建”网络可以自动获取具有判别性的局部信息,本文提出了多尺度输入(MS_DCL)和多尺度细节增强(MSDB_DCL)破坏重建模型,使得网络可以学习到物体和部件级别的判别性信息来进行细粒度图像分类,实验结果显示MS_DCL比现有其他细粒度图像分类方法具有更高的识别精度,在CUB200-2011数据集上测试准确率可达87.4%。4.基于Mask GrabCut的细粒度图像分割:为了获取到细粒度图像中的前景部分以做进一步研究分析,针对传统图像分割算法的局限性和基于深度学习分割网络的边界保留不足问题,提出了传统图像分割方法与深度学习分割网络相结合的方法Mask GrabCut,该方法结合了GrabCut分割算法中抠图边界的思想和Mask R-CNN语义分割网络的通用性,实验结果表明,Mask GrabCut方法在CUB200-2011数据集上的分割性能优于这两种方法。
其他文献
氮化物薄膜主要是指氮化镓(GaN)、氮化铝(AlN)、铝镓氮(AlGaN)第三代半导体薄膜材料,它们具有较高的禁带宽度、较大的击穿场强、高热导率、耐高压等优良的电气特性。因此,氮
图像美学评价旨在令计算机模拟人类的主观审美思维对图像进行美学价值的评估与判断,是一项非常具有挑战性的课题,尚没有统一的评价标准。可计算美学评价是目前主要的研究方法
[目的]通过收集和统计肺栓塞患者中胸腔积液患者的人数,分析肺栓塞并胸腔积液的发生率;通过比较肺栓塞并胸腔积液患者与肺栓塞无胸腔积液患者的一般资料、临床特点、辅助检查
目前已有大量的植物DNA病毒与正链RNA病毒被改造为表达载体和基因沉默载体,而植物负链RNA病毒反向遗传学体系建立不久,仅少数几种负链RNA病毒被改造为表达载体。研究表明,由
双链DNA病毒(dsDNA viruses)是一种以双链DNA为遗传物质,利用依赖于DNA的DNA聚合酶进行复制的病毒。双链DNA病毒种类多样,包括核质巨DNA病毒(nucleocytoplasmic large DNA vi
在过去的十年中,随着家居市场竞争的加剧,商场和商家的盈利环境更加艰难,商场管理者渴望一种更有效的沟通和分析方法来凝聚和确保双赢的利益关系。由此,租户满意度的概念被提出,商场管理者意识到合适的评测方法是改善提升商场管理的突破瓶颈,也是再造商场竞争优势的重要因素。同时,学术领域对租户满意度的研究也在不断深入,对其评测手段的改良也在与新案例实践结合中不断创新。本文以东莞A家居商场研究案例。由于A商场缺乏
本研究主要采用生活污泥和零价纳米铁为原材料制备磁性污泥生物炭,应用于模拟废水中的Cr(Ⅵ)和As(Ⅴ)的去除。Cr(Ⅵ)和As(Ⅴ)是一种具有代表性的水体有毒污染物,对动植物有很大的危害作用。因此,如何有效地处理含Cr(Ⅵ)和As(Ⅴ)废水,已成为当今的热点话题。由于铬和砷污染在水体中具有持续性、富集性、强烈的毒性和致癌性。目前,处理Cr(Ⅵ)和As(Ⅴ)废水有很多方法,包括氧化还原沉淀、离子交换
随着移动互联网等信息技术的迅速发展,教与学开始突破时间、空间的限制,学习者知识的获取渠道变得更具有灵活性和多样性,为了更好地为学习者在移动学习系统或平台中提供良好的学习交互服务,激发其自我效能感,促进交互行为的产生与转化,探讨移动学习环境下学习者社会交互行为的影响因素及其内在效应关系成为提升其学习交互服务质量的途径之一。本研究首先对学习交互、在线学习交互、社会交互行为的概念界定,以交互理论、分布式
含铅、镉工业废水由于其高化学毒性、致癌性和生物积累性,是对生态环境危害最大的工业废水之一,目前,含铅、镉废水的处理主要以化学沉淀法、电化学法、吸附法、离子交换法和膜分离法为主。其中,吸附法由于具有操作简便、去除效率高等诸多优点而备受瞩目。但过高的吸附剂成本使其在含铅、镉废水的处理中受到一定的限制,因而寻找廉价且高效的吸附剂是很有必要的。本研究以剩余污泥和硫酸钙为原材料,采用共热解的方法制备出低成本
N-亚硝胺类物质(N-nitrosamines),是一类对人类具有高毒性和强致癌性的有机污染物,具有强亲水性,广泛存在于各类水体中,容易随水流进行迁移。进入环境水体后的亚硝胺严重影响生态环境质量和生态安全。环境水体中的亚硝胺主要来源于人类活动产生的各类污废水,这些污废水经过河流的循环后,可能作为饮用水的水源进入人们的日常生活,这进一步提高了人类接触亚硝胺类物质的概率。漓江是世界知名的旅游胜地,也是