基于多模双线性池化的细粒度图像识别方法

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:QQ379043463
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度图像识别任务主要是要识别不同大类下的子分类,该任务作为通用图像识别任务下一个应用前景广泛的子任务,因为其在新零售、生物医疗以及社会安防等场景中具有巨大的落地前景而广泛受到关注,其应用场景包括在大街小巷上设置摄像头对车辆进行车型年款级别的分类,在无人超市识别不同品牌的矿泉水,在生物研究中识别不同的病毒,这些应用场景都具有不可限量的价值。近年来,该任务已经在各个方面都取得了一些进展,但以下的几个问题仍然需要学术界和工业界共同关注:(1)图像背景干扰较大。与通用图像识别任务相比较,细粒度图像分类任务通常较复杂,存在着背景干扰等问题,背景信息中存在很多对分类无益的噪声,如何准确定位到具有分辨力的关键区域是一个需要攻克的难题;(2)图像标注信息获取难度较大。当前的通用图像识别任务一般只会在训练和拟合的过程中用到图像级别的标注信息,但是对于细粒度图像识别任务而言,图像级别的标注信息往往不能满足识别需求,需要用到更细致的部位级别的标注信息,例如物体标注框或者部位标注点等。这些信息会用来帮助定位到目标的关键特征和寻找具有区分性的区域,而这些额外的标注信息通常需要使用专家级的知识进行标注,这是一件人力成本高昂且耗时很长的事情。因此,如何在细粒度图像识别任务中仅使用图像级别的标注信息仍然具有挑战性,并且变得越来越重要;(3)具有区分性的细微特征利用率低。传统的图像识别任务主要是对类间差异较大的目标进行识别,典型的任务例如区分猫和桌子,这些目标在整体上就具有区分性较明显的特征,例如颜色、形状都有很大区别,但是细粒度图像类间对象在形态上差异较小,决定类间差异的往往是细微特征例如鸟喙形状。因此,是否能够有效利用图像中具有区分性的细微特征是决定细粒度图像识别任务成败的关键环节。因此,本文从过往的研究经验出发,针对目前的细粒度图像识别领域的问题和研究难点提出了一种基于多模双线性池化的细粒度图像识别方法,主要研究内容如下:(1)基于目标检测算法YOLOv3的判别性区域定位方法。本文在图像输入阶段预先使用目标检测算法YOLOv3对具有显著判别性的目标区域进行提取,这能够帮助对图像中检测目标以外的背景噪声进行抑制,降低无关背景对模型识别性能的负面影响;(2)基于多模双线性池化模型的细粒度图像识别方法。将第一步获得的目标区域输入到端对端的多模双线性池化模型中,模型由两个特征提取器组成,能够以平移不变的方式,对局部特征交互进行建模,通过将图片输入到两个卷积神经网络中提取出两个视觉卷积特征。该方法能够在学习图像数据的特征张量时分工协作,关注到不同尺度的目标特征,对不同大小的目标都有较好的识别效果。同时识别过程中仅需要使用到图像的标签信息,不需要使用额外的专家级人工标注信息,能够有效解决图像标注信息获取难度较大的问题;(3)基于TFN方法的特征向量融合。当双路特征提取器完成特征提取后,使用新的特征融合方法对获得的双路特征进行融合编码并输入分类器。本文通过对特征向量补1操作,并将两个一维特征向量的特征映射到不同模态间外积的高维特征空间。TFN特征向量融合通过模态之间的外积计算可以大大增加不同模态的元素之间的相关性,同时还会保留原始特征向量本身的信息,使用TFN特征向量融合方法对双线性池化模型提取的不同尺度特征进行融合,实现了高效利用图像数据中具有区分性的细微特征。
其他文献
教育大资源与智能服务平台旨在利用众筹众创服务模式实现优质教育资源的汇聚及管理,推动资源智能服务的发展。众智标注模块作为平台资源知识化组织与管理模块中的子模块,用于实现对自动标注结果的优化以及对教育资源更好地组织管理与应用服务。为实现众智标注模块的功能需求,本文梳理教育大资源服务对资源描述信息的多维度需求,并基于多维度标注实施流程,对用户标注结果的质量控制问题进行探究。从标注结果评估和用户评估两个方
学位
近年来,镁及其合金作为最具有吸引力的轻质结构材料引起了人们的极大关注。但与其他传统结构材料(如铝或钢)相比,镁合金在室温下表现出有限的冷加工性和韧性。目前,通过大塑性变形(SPD)手段可以实现改善其力学性能的目的。目前,在众多SPD方法中,等通道角挤压(ECAP)技术,由于具有可以多次变形,累积变形量而不改变材料的横截面积等一系列优势而被认为是最有希望用于工业应用的方法之一。本实验选取ZK60型号
学位
项目风险管理90年代起在中国工程类项目实施成功后应用到电子、通信行业已普及多年。不仅在学术界达成共识,更在应用方法上成为有效降低项目风险的重要手段。在IT项目管理中普遍存在项目风险管理,通过成功有效的实施项目风险管理,防止或减少项目中潜在问题的影响,并为处理危机提供方案的案例屡见不鲜。本文以YD数据中心云平台开发项目为研究对象,作为企业信息化和国家两化融合的发展战略示范工程,云平台的开发建设是一项
学位
学习绩效预测是教育大数据挖掘与分析的主要研究领域之一。学习绩效预测一般指先对学习者在学习过程中产生的数据进行搜集,然后将数据与算法相结合对学习结果进行预测。本研究聚焦于在线教学场景下基于多维异步讨论特征的学习绩效预测研究,从异步论坛数据中挖掘出影响学习绩效的特征,分析这些特征与学习绩效的关系,并运用相关算法构建学习绩效预测模型。同时,在构建学习绩效预测模型的过程中,对现有算法进行一定程度的改进,以
学位
混凝土抗压强度检测是水闸现场安全检测中最重要的检测指标之一,根据水闸建筑物的特点,选择合适的混凝土强度检测方法,有助于提高检测成果的真实性和准确性,为水闸安全复核提供可靠的数据支撑。本文简述了几种不同强度检测方法的使用条件,并通过实例进行了分析,可作为水闸现场安全检测混凝土强度检测工作的借鉴和参考。
会议
以教育信息化带动教育现代化是我国加快教育大国迈进教育强国的重大战略抉择。基础设施建设是推进教育信息化发展的物质基础,学生信息化终端作为基础设施建设的要素之一,是促进教育信息化发展、推进教学模式变革的关键所在。随着教育信息化工作的快速推进,我国学生信息化终端建设初具规模,但省际间配备水平仍存在差距。通过近二十年的学生信息化终端相关发展数据,分析当前各省之间学生终端普及情况,并判断区域发展水平及发展阶
学位
新型钴基高温合金具有与镍基高温合金相似的γ’相强化方式而引起了科研工作者的广泛关注,有望应用于燃气轮机的涡轮盘等部件。为满足航天发动机的生产需要,本课题组研制了两种碳含量不同的新型钴基高温合金(0C合金及5C合金)。该合金在600℃~900℃的温度范围具有良好的综合性能。作为航空发动机用材,其构件的服役环境通常为高温高速,因此合金在长期时效过程中组织演化行为以及应变速率敏感性至关重要。为此,本文针
学位
在线学习日益发展,教学视频作为在线学习中重要的学习资源,其有效性备受坊间学者关注。然而,现有研究大多从视频本身优化设计的角度来探讨视频学习有效性的问题,鲜少有研究考虑学习者如何使用学习策略以提升视频学习效果。向他人解释是一种有效的生成性学习策略,能够促进学习者有意义的学习。但关于向他人解释策略对视频学习影响的研究结果并不一致,这可能与在场者身份和学习者先前知识经验有关。基于此,本研究结合脑电技术,
学位
由于长周期有序(LPSO)相独特的结构和原子排列,LPSO相强化镁合金成为镁合金的一个研究热点。本论文通过SEM、DSC、TEM和EPMA等实验方法对Mg-Ni-Y合金铸态、400℃和500℃热处理后的LPSO相结构和相平衡进行了研究,同时研究了挤压后的LPSO相强化Mg-Zn-Y合金的力学性能。主要结果如下:(1)Mg-Ni-Y系合金中含有18R和10H两种结构的LPSO相。18R结构的成分为
学位
小学科学中应重视概念教学已成为学界共识。概念转变理论明确了科学概念学习的一般过程。然而,尽管概念转变理论指出了光明的前景,却从未告诉教师如何到达理想的彼岸,这使课堂实践中的科学概念教学进展缓慢。同时,重视具体操作的脚手架理论只是告诉教师该如何做,却缺乏宏大的远景目标。以概念转变为目标,以脚手架为手段是到达科学教学中概念转变这一理想彼岸的恰当方法,而SOLO分类理论将概念转变的结果分为不同层级,帮助
学位