基于数据增强和多粒度训练的细粒度图像分类研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:zhensa9d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长期以来,细粒度图像分类作为传统图像分类的一个细分方向,在现实世界的场景中有着广泛的实际应用需求。细粒度图像分类追求更加细致的类别划分,比如,输入一张鸟类的图像,可以对目标物体的具体子类别进行准确识别。显而易见的,细粒度图像分类相比传统意义上的图像分类提出了更高的要求。细粒度图像分类问题最大的挑战在于样本的类间差异小、类内差异大。为了解决这个问题,聚焦于近年来使用深度学习方法在细粒度图像分类问题上的应用,本文首先引进了空间通道相互之间的非线性信息,利用注意力机制进行数据增强学习,提出基于挤压激励模块的弱监督数据增强分类算法;然后更进一步的,在数据增强的基础上采用渐进式训练方法,使得注意力机制与多粒度信息互为补充,提出基于弱监督数据增强的渐进多粒度训练分类算法。本文研究的主要工作概括如下:(1)基于挤压激励模块的弱监督数据增强分类算法。空间通道信息可以使网络更好的学习具有区分性的类间区别,结合特征通道之间的非线性关系信息,比单纯的对图像进行特征提取更具有优势。在本算法中,首先,将特征骨干提取网络和挤压激励网络进行融合得到特征提取网络,增强了网络对于特征通道互相之间非线性关系的特征学习能力;其次,配合后续基于注意力机制的数据增强方法,使得网络的特征学习与弱监督数据增强形成一个相互加强的过程。更进一步的,参数初始化来初始化网络的模型参数,使得在反向传播的学习过程中更加高效;同时,标签平滑正则化对样本标签的编码进行预处理,使得模型的泛化能力得到加强。该算法相比传统的细粒度图像分类方法,取得了更加优秀的分类精确度。(2)基于弱监督数据增强的渐进多粒度训练分类算法。因为关键部位的尺寸大小不固定,仅仅考虑图像的粒度信息会出现对特征部位定位不准确的情况。注意力机制可以有效的解决这个问题,以注意图为指导可以令网络精准的定位到各个关键区域,避免了无关背景信息的干扰。注意力机制配合多粒度信息,可以在特征提取的多维度层次互为补充,在实际的图像分类取得更好的效果。在本方法中,首先,使用了层次相对较深的分阶段的Res Net网络提取图像特征;同时,由随机的拼图补丁生成器生成各个阶段不同粒度的图像样本,每一次训练一个层次的网络。然后,将基于注意力机制的数据增强方法融入到算法里面,以注意力图的信息为补充,强化对图像数据可区分部位信息的挖掘;最后,基于注意力图的二阶段预测方法来进一步提升模型的性能。实验表明,模型的总体性能已经达到了目前先进的算法效果。
其他文献
电子鼻是一种由传感器阵列和适当的气味识别算法组成的仪器,已广泛应用于食品安全检测、航天飞机和医学诊断等气味检测相关的各行各业中,并发挥着重要的作用。如何设计更高效且低成本的集成电子鼻系统是气味识别的研究热点之一。目前,集成电子鼻设计中,将原本普通电子鼻的传感器阵列模块和识别算法模块两个独立硬件和软件模块集成为一体。这种设计相较于普通电子鼻系统优势明显,避免识别算法使用额外的计算机硬件,降低了电子鼻
如今毫米波雷达被广泛应用于无人驾驶系统中。随着毫米波雷达技术的发展,车载毫米波雷达的分辨率越来越高,从同一目标处获得的数据量以及目标数据集的数据量也随之增多。同一目标的数据量增多能够让系统更准确地分析目标。但目标数据集数据量的增多会导致无人驾驶系统对目标数量的判断能力受到影响,因此需要利用合适的聚类算法处理车载毫米波雷达的目标数据集来得到正确的目标数量。车载毫米波雷达目标数据集的数据密度不均匀,并
在数据挖掘领域,聚类作为一种重要的数据分析方法引起广泛关注,但数据规模不断扩大,数据结构日益复杂,维数也越来越高,很难使用传统的谱聚类技术对其进行分析,子空间聚类是针对高维环境下的信息进行处理的常用方法,可以在其中准确找到与数据子集相对应的低维子空间,去除无关信息对聚类结果的干扰。现有的自适应图正则化的低秩表示方法虽然可以对数据自适应的进行学习,同时保留数据的全局和局部信息,令得到的系数矩阵具有清
随着集成电路产业的快速发展,物联网系统功耗大和电池续航时间不足的矛盾也越来越突显,成为低功耗应用开发亟需攻克的难点。太阳能电池作为绿色可再生能源中的典型代表,因其成本低、资源丰富且能量密度大而得到广泛应用。另外,负载直接连接到太阳能电池通常并不能高效率地捕获能量。能量采集器能匹配能量源的输出阻抗,使能量捕获效率最大化,达到最大功率点跟踪的目的,设计基于MPPT的能量采集器具有重要意义。本文分析了太
随着社会对智能产品依赖越来越强,其对产品的功能要求也越来越高。芯片作为产品设备中重要组成部分之一,目前主要面临着两大挑战,工艺技术无法继续往前和芯片无法兼备高性能及低功耗要求。而电压基准源作为芯片中模拟集成电路设计里的基础模块,与各个电路模块乃至电路的整体性能相辅相成,在电路中占据着重要位置。因此,设计一种高性能低功耗的电压基准源电路结构对今后的发展尤其重要。本论文设计了两种基准源电路,分别为全C
聚对苯二甲酸丁二醇酯(PBT)由于其自身优异的性能,被广泛应用于各行各业,但其回收利用率低,不符合现在低碳和环保的理念,因此研究易回收利用的高性能PBT复合材料一个非常具有研究价值的课题。类玻璃高分子(vitrimer)是一种具有动态交联网络结构的新型聚合物,在高温条件下,动态交联网络快速反应使网络的拓扑结构发生改变和重排,从而使得材料具有可重塑性和可再加工性能,这种性能使得vitrimer材料的
随着深度卷积神经网络(VGGNet、Res Net、Densenet等等)的不断发展,计算机在处理常见的粗粒度图像分类的效果已经越来越准确了,在大量的分类任务中甚至已经超过了人工的分类的精度,继而很多学者和研究人员逐渐地将研究的目光投向了细粒度图像分类任务。然而直接将这些深度神经网络用于细粒度图像的分类并不能得到很好的效果,主要是因为这些细粒度的图像之间是具有很多相同的地方,直接使用这些深度卷积神
语音是人类最基本、最重要、最快捷的信息交流传播方式。语音中不仅包含着说话者表达的内容,还包含着说话者丰富情感信息。随着大数据时代的到来,语音情感识别成为非常活跃的研究领域,在人机交互系统方面具有潜在的应用。语音情感识别作为人机交互系统的重要组成部分,其目的是通过直接的语音交流与机器形成情感互动。但是,由于情感的复杂多样性,语音情感识别是一项非常具有挑战性的工作。在语音情感识别研究中,研究主要内容是
随着经济全球化以及数字经济学的迅速崛起,推动了全球经济的快速发展。股票市场作为金融行业中最为重要的一部分,对经济的波动有着重要影响。股票价格涨跌的不确定性、难预测性和高回报高风险性,激起了众多学者的研究热潮,更受到了广大投资者的关注与追捧。如何提高股票涨跌预测的变化趋势成为众多学者与投资者最为关注的热点,因此,对金融趋势预测技术模型的研究与设计不仅具有深刻的理论意义,也具有非常重要的使用价值。由于
城市道路交通堵塞及事故的频发,给市民的交通出行和社会生产带来极大的困扰,尽管诸多的城市管理者对解决当前问题做了很多不同的尝试,但这些现象依然存在于各个城市中,且呈现上升趋势,如何在现有的交通设施基础下有效的提高城市道路的运行效率及管理能力是当前交通运输领域的主要难题。城市路网中无时无刻有网约车在运行,包含大量全面的城市交通时空信息,而且GPS数据具有可靠性高、数据量大等特点,采集到的数据通过无线网