基于自适应交互选择和注意力的细粒度图像分类

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:lianghaiyanps3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度图像分类是用来区分同一类别下不同子类的。由于该任务存在类间视觉差异细微的难点,细粒度分类任务相对于通用分类更具挑战,如何从图像中学到更具判别性的局部特征是解决此问题的关键。在现有细粒度分类方法中,双线性模型和破坏重建模型被认为是应对细微类间差异最有效的两种模型。双线性模型可以不依赖额外标注信息,通过特征交互自主挖掘判别性特征。破坏重建模型则通过打乱图像的全局语义信息生成破坏图像,迫使网络去学习图像局部区域内的判别性特征。但是,这两类模型都存在严重的问题:1)双线性模型中用于交互的特征集是指定的,且没有利用多尺度特征间的互补信息;2)破坏重建模型忽略了不同粒度的图像局部信息,也未能消除破坏图像中各局部区域的边缘噪声。针对这两类模型存在的问题,本文开展了以下研究:针对问题1,本文提出了基于自适应交互选择的多尺度双二次池化模型。该模型能够改进网络中不同语义卷积层的特征交互方式,并自适应地为特定数据集学习最优的交互子集。首先,本文提出了双二次池化模块,通过哈达玛运算对两组不同卷积特征的层间关系进行建模,之后通过双线性池化的方式对同一特征的不同通道进行层内相关性建模。其次,本文从多个语义级别中提取了不同尺度的卷积特征,利用不同语义级别特征间的互补信息来进一步强化双二次池化的性能。最后,本文提出带监督信息的稀疏的交互选择模块,为特定数据集自适应地从所有候选交互集合中学习最优的交互子集。针对问题2,本文提出了基于注意力的多粒度区域混淆模型。该模型旨在提取图像局部区域内的判别性信息来提升目标识别精度。首先,本文提出了多粒度区域混淆机制,将原始图像划分为多个局部区域并随机打乱这些区域,促使神经网络去学习图像中不同粒度的判别性特征。其次,本文设计了一个多尺度融合的空间注意力模块,用来消除区域混淆机制所引入的区域边缘噪声,并辅助网络更精细地去定位目标不同粒度的判别性区域。综上所述,本文提出了两种通用的细粒度分类模型,分别从优化特征交互方式和关注图像局部区域的角度进行研究。在多个公开数据集上的实验结果也证明了本文所提模型的优异性能。
其他文献
眼睑恶性黑色素瘤是一种死亡率极高的罕见疾病,对该疾病进行准确诊断既重要又具有挑战性。在眼睑恶性黑色素瘤诊断过程中,由于存在病理图像染色不一致、人工标注成本高等问题,设计高效且有针对性的辅助诊断方法具有重大现实意义。本文针对眼睑恶性黑色素瘤病理图像数据集开展研究,通过结合自监督学习(Self-Supervised Learning,SSL)、注意力机制等技术,首先进行了染色处理和数据增强优化,并在此
学位
本文汇总2018~2021年梅州市化妆品监督抽样检测结果,从样品类别,被抽样单位、不合格(问题)项目等不同角度对近4年共296批化妆品检测结果进行分析。并重点对“妆”字号和“消”字号婴幼儿护肤品检测结果的明显差别,标签标识问题进行分析讨论,发现监管风险点,提出监管建议。
期刊
瓷砖具有图案美观、防水耐磨等特点,是装潢设计中不可或缺的材料。目前瓷砖样式设计自动化程度较低,设计师主要通过扫描天然大理石或者木纹等切面纹理进行设计加工,这些纹理图案通常风格样式单一,无法满足多样化设计需求,而传统的基于图像纹理生成方法在瓷砖真实感和多样化方面有所欠缺。为了解决这个问题,本文提出基于深度学习的瓷砖图像多样性设计方法,即瓷砖纹理自动生成和瓷砖风格转换的两类方法,这些方法能满足瓷砖设计
学位
在互联网大数据时代,智能手机以及监控相机等数据采集设备的广泛应用,显著地提高了行人图像数据的获取、分享和传播效率。一方面,这些数据能广泛应用于智能服务以提高人们的工作效率与生活质量;另一方面,如果这些数据被滥用,会严重威胁个人或者组织的隐私安全。因此,研究行人图像隐私保护方法具有重要的价值及应用前景。近年来,生成对抗网络技术为基于图像合成替换的身份匿名隐私保护方法提供了新思路。然而,现有方法大多关
学位
近年来我国在校大学生数量一直在持续增加,现已达到了4000余万。大学生毕业后总是希望从事“专业对口”的职业。社会职业与大学专业间的关联性很强,而大部分学生却对专业和职业缺乏足够的了解与认知。特别是在社会经济迅猛发展的今天,新职业不断出现,大学生对当前社会各行业有哪些与自己所学专业对口的职业更加不了解。另外,就业地区也是大学生就业时的重要考量因素,因为同一个职业在不同的地区和城市其薪资水平可能会有很
学位
近年来,随着人工智能技术不断发展与创新,电子商务借助人工智能技术实现新突破。各大电商平台相继推出虚拟试衣服务,旨在改善消费者的网购体验,从而提高零售商的销量。本文主要研究基于图像的虚拟试衣,并根据适用场景将其划分为基于时尚单品场景的虚拟试衣和基于全套服饰场景的虚拟试衣。通过对两个场景的虚拟试衣方法的深入研究,本文展开以下两个工作:(1)通过分析基于时尚单品场景的虚拟试衣的难点,针对其存在的服装形变
学位
随着基于位置的社交网络(Location-Based Social Network)的快速发展,海量的签到数据被用于挖掘用户的行为模式以实现兴趣点(Point-of-Interest)推荐。兴趣点推荐不但可以提高用户体验,增加用户粘性,还能为商家带来潜在的商业利益,已成为推荐系统中最重要的研究方向之一。现有的相关工作主要对时间、空间、序列、社会关系等多种因素进行建模。但是,这些工作还存在着诸多不足
学位
K均值聚类和谱聚类是无监督学习中流行的聚类方法,旨在根据样本相似性对数据点进行分簇。然而,K均值聚类因簇初始质心初始化的质量差异和离群点干扰,导致其聚类结果存在较大随机性,即聚类性能相对不稳定,同时不能有效处理非凸分布数据集。另外,完整的传统谱聚类采用三阶段策略完成聚类,即根据输入数据构造相似度图,然后在图上执行谱嵌入得到松弛的连续标识矩阵,最后运用Kmeans或谱旋转等后处理技术对连续标识矩阵离
学位
互联网给人们的生活带来了便利,但是也造成了各种安全问题。不法分子为了牟利在互联网上发布各种不良信息,比如:垃圾邮件、色情广告信息等。大量的不良信息不仅会破坏网络环境、影响人们的上网体验,而且会影响到青少年的身心健康,甚至会危害社会治安。现有的不良短文本识别方法能够过滤掉部分不良信息,但在识别带变体的不良短文本时效果不佳。变体是不法分子为了逃避检测而在其发布的不良短文本中添加的一种干扰噪声,其中同音
学位
脑胶质瘤是最常见的原发性中枢神经系统肿瘤之一,具有极高的发病率和致死率。磁共振成像(Magnetic Resonance Imaging,MRI)能对大脑软组织进行高空间分辨率和高对比度成像,是医生进行脑胶质瘤影像诊断的最佳选择,但人工判读的过程不仅费时费力,而且严重依赖于主观经验,存在极大不稳定性。目前,基于深度学习的图像分割算法能够实现脑胶质瘤的自动化分割,有效地提高了医生的诊断效率。然而,由
学位