基于深度学习的带标题图像多标签分类

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：huojiantong

【摘要】

：

多标签图像分类任务就是将自然图像中包含的多种物体类型都进行正确的识别。图像分类不仅是计算机视觉领域的基础之一,也在实际生活方面有着广泛的应用价值。但多标签图像一

【作者】

：

蔡江涛

【出处】

：

电子科技大学

【发表日期】

：

2020年01期

【关键词】

：

深度学习多标签图像分类注意力机制多模态特征融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多标签图像分类任务就是将自然图像中包含的多种物体类型都进行正确的识别。图像分类不仅是计算机视觉领域的基础之一,也在实际生活方面有着广泛的应用价值。但多标签图像一般含有较多的目标,并且存在目标之间有遮挡以及目标尺寸大小相差较大以及构成图像内容复杂等问题,对其实现准确的分类是一个具有挑战的任务。而视觉和语言是人类解决现实问题的两个核心部分,因此人工智能对两个领域分别进行了大量的研究。近年来,由于深度学习的在各自领域的巨大进步使得视觉和语言之间的界限被打破,使得跨模态融合成为了当下研究的热点问题。而众多研究表明通过加入更多模态的网络模型,往往比单模态算法的性能更好。在多模态融合的框架下,如何有效的让文本信息辅助图像进行多标签分类就成了问题的关键。本文提出一个全新的短视频封面数据集,其包含多标签图像以及图像附带的标题文本信息。通过该数据集验证结合视觉注意力机制和多模态融合的图像多标签分类算法的有效性,主要的贡献如下:1)本文对现有的图像注意力机制进行改进,引入了立体注意力机制。现有的注意力机制大都集中在特征图像的空间特征,而忽略通道方向的信息。我们通过结合空间注意力机制和通道注意力机制,充分的考虑到了空间位置和通道位置的特征。其中空间注意力机制作用在网络的较低层,可以在分辨率较高的特征图上更加关注细节信息。而通道注意力机制可以被认为是对属性的选择。并且通过实验表明在两个数据集上有不错的效果。2)本文通过层级多标签分类算法来建立标签子类与父类之间的关系,来辅助模型得到图像所有的标签。算法可以同时优化局部和全局损失函数,以从整个类层次结构中发现局部层次的类关系和全局信息,同时惩罚层次结构的错误分类。通过实验结果分析,我们所提出的算法可以建立标签之间隐含的联系性。3)本文将标题文本信息引入到图像多标签分类算法中。利用文本信息和图像之间隐藏的关联性,对其进行多模态融合,让图像特征更加关注文本信息注意的区域,辅助图像进行分类。文本信息首先经过自注意力机制增强对句子中关键词的聚焦,然后经过双线性注意力机制网络对文本特征和图像特征进行融合,并且为防止文本的噪声信息将输出特征向量与图像特征向量进行连接进行多标签分类。最后通过大量的实验验证本文提出的方法具有其有效性。

其他文献

聚酰胺6-聚乙二醇共聚物的合成与性能

采用阴离子聚合法合成了一系列聚酰胺6一聚乙二醇（PA6．PEG）嵌段其聚物，对己内酰胺／PEG投料比对共聚物热性能的影响进行重点研究，并分析此方法所得产物的结晶性能．通过傅里叶变换红外

期刊

己内酰胺聚乙二醇尼龙6阴离子聚合caprolactam polyethylene glycol nylon 6 anionic polymerizati

Tesco 2017 Strategic Report：汉译隐性逻辑关系重组实践报告

实践报告以Tesco 2017 Strategic Report部分章节汉译实践为依据,针对初译隐性逻辑关系存在的翻译问题,采用隐性逻辑关系重组相关策略作为解决方案,探讨所选策略的效力和实践价值。分别从隐性承接关系,隐性条件关系,隐性目的关系这三个方面,选择适当的翻译策略和技巧,有针对性地解决初译时所存在的难点和问题。通过审校归纳分析,将初译过程中出现的翻译问题界定为:隐性承接关系不明晰、隐性条件

学位

隐性逻辑关系重组实践报告

秦川中空吹塑机成绩斐然——记秦川机床工具集团股份公司秦川塑料机械厂

为期四天的＂Chinaplas 2015国际橡塑展＂于2015年5月23日落下帷幕。作为亚洲第一、全球第二的中国国际塑料橡胶工业展览会,本次展览会吸引了来自四十多个国家的3200家参展商齐聚

期刊

塑机中空吹塑机床工具塑料机械厂塑料橡胶工业海外客商中空成型机塑料包装行业真空镀膜技术挤出吹塑

扩张型心肌病lncRNA/mRNA表达谱研究与生物信息学分析

目的应用RNA-seq技术构建扩张型心肌病(Dilated cardiomyopathy,DCM)患者和健康对照外周血单核细胞的lncRNA/mRNA差异性表达谱。应用生物信息学手段分析DCM的lncRNA/mRNA差异

学位

扩张型心肌病RNA-Seq基因差异性表达gene ontology分析KEGG pathway分析

扩链改性对生物塑料聚（3-羟基丁酸酯-co-4-羟基丁酸酯）性能的影响

以异佛尔酮二异氰酸酯（IPDI）和巴斯夫扩链剂-4370（ADR-4370）为扩链剂,采用熔融挤出法制备扩链改性聚（3-羟基丁酸酯-co-4-羟基丁酸酯）[P（3HB-co-4HB）].使用毛细管流变仪、哈克转矩流变

期刊

聚(3-羟基丁酸酯-co-4-羟基丁酸酯)熔融扩链流变性能力学性能断面形态poly（3-hydroxybutyrate-co-4-hydroxybut

基于深度学习的带标题图像多标签分类

其他学术论文