基于注意力与上下文关联的多标签图像分类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:luck_chiachang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,多媒体数据不断增长。对大规模多媒体数据进行分类是一项极具挑战性的任务,重要原因之一是多媒体数据可以同时属于多个类别。在多媒体数据中,图像占有很大的比重,因此,多标签图像分类受到越来越多的重视。在多标签图像分类中,图像可以有多个类别标签。现有的多标签图像分类方法主要存在两个问题:第一个问题是没有考虑图像中上下文关联关系,而利用类别标签之间的关系可以提升分类性能;第二个问题是忽略了图像中的空间信息,导致类别标签与图像区域产生错误关联的问题。为了解决这些问题,本文提出了三种多标签图像分类方法。本文的主要研究内容如下:首先,针对忽略图像中的空间信息问题,本文提出一种基于注意力机制的多标签图像分类模型。该模型使用Res Net提取特征,并使用CNN为每一个类别标签生成对应的注意力图,然后使用注意力图对特征图进行加权,最后使用加权特征图进行分类。实验结果表明,模型能主动关注类别标签对应图像区域,进而增强分类效果。其次,为了更好的利用标签之间的关系,本文提出一种基于STN和LSTM的多标签图像分类模型。所提出的模型使用VGG提取特征,然后使用STN实现注意力机制,最后使用LSTM获取标签之间的关系并进行分类。实验结果表明,模型能有效的在特征图上寻找目标区域,进而提升分类性能。最后,尽管LSTM能获得标签之间的关系,但获得的是一种局部关系。为了充分利用标签之间的关系,本文提出了一种基于GCN和注意力机制的多标签图像分类模型。该模型使用Res Net提取特征,同时使用注意力机制来获得加权特征,然后将两个特征进行加权融合。GCN可以学习标签之间的全局关系并利用融合后的特征进行分类。实验结果表明,GCN和注意力机制能有效提升分类表现,与最近的方法相比,有很强的竞争力。基于以上工作,本文设计并实现了一个多标签图像分类系统,系统能够实现图像标注、图像检索和相似图像查找的功能。
其他文献
种间相互作用(Interspecific interaction)是影响局域群落物种多样性的主要生态过程之一。然而,由于种间相互作用在自然群落中无法直接测量,通过其他途径间接估计仍是当今群
受其它学科和众多工程技术领域应用的驱动,关于Sturm-Liouville算子的谱分布及其逆谱问题的研究已引起国内外学者的极大兴趣和高度重视.迄今为止,它已成为应用数学领域中发展
本文主要研究双周期结构和无界粗糙表面弹性介质散射问题的完美匹配层截断问题的理论分析.这些散射问题都需要在无界区域上求解散射场或者衍射场.为了使用经典的数值算法――
为了保证农业生产中农作物的产量和人类食物的供给,农药的使用不可避免。其中有机磷和氨基甲酸酯类农药在我国的使用量远高于其他农药品种,由此引发的农产品中的残留问题和引
国家教育改革的扎实推进促发了教育行业的活力。近两年来,随着新教育理念的普及,新高中课程标准的发行以及新高中教材的推广使用,教育受到了越来越多的社会和学术关注。作为
随着大数据时代的到来,大数据分析技术在商业应用、工业生产、社会服务和政府管理等各个领域得到高度重视和广泛应用,有效地提高了各行各业的决策能力、服务效率和运营管理水
本文主要研究了累积剩余熵的性质及其在投资风险中的应用,为风险投资与决策提供理论支持。第一章主要讲述累积剩余熵的发展过程以及它的发展意义。第二章主要介绍了一些经典
随着集团型上市公司的日益普及,其内部更为复杂的财务与会计问题得到了国内外理论研究的日益关注。近年来,基于双重委托代理关系和“双重披露制”探讨集团内部的财务与会计行
互联网和信息技术在通信中的作用日益增强,给人们带来各种各样便利的同时也引起了人们对信息安全和版权保护的关注。信息隐藏技术作为一种有效的手段,已经成为信息安全领域一
鸭甲肝病毒(duckhepatitisAvirus,DHAV)是小RNA病毒科(Picornaviridae)禽肝病毒属(Avihepatovirus)的唯一成员,其基因组为单股正链RNA,在我国流行较为普遍的是血清1型即DHAV-