基于深度学习的细粒度图像识别方法研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 6次 | 上传用户:mgq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度图像识别任务一直是一个具有挑战性的任务,主要由于数据集本身具有类内差异大、类间差异小的特性,对于识别任务而言要求图像特征更具信息量。尽管现有方法一直致力于研究发现图像中的高区分性区域,但是只有图像信息会限制高性能识别系统的开发。为了解决上述问题,我们尝试模仿人类的认知过程,利用文本模态的信息作为视觉引导,帮助定位图像中的特别区域。因此,我们在本文中提出了两种新的方法,验证文本模态信息在识别任务中的有效性。首先,我们引入了Pairwise文本描述,该文本主要描述了图像对间的视觉差异,同时相应地设计了多模态鱼类识别网络(MMFN)用于区分易混淆图像对。具体而言,我们利用了文本中的对比性描述作为视觉引导,然后发现图像中的高区分性区域。在这些文本的帮助下,深度卷积神经网络能够提取相应图像区域的特征,并且有助于最后识别结果的提升。其次,我们继续提出通过添加个体文本描述(Individual Text Descriptions)以增加图像特征的表达能力。除此之外,我们利用Image Classification和Image Caption实现多任务的联合训练,通过文本生成的约束从上到下地帮助改善图像特征质量。相应地,这种机制不但能精确生成文字序列,用于描述图像内容的细节信息;而且也同时提高了分类器的识别能力。最后,我们开展了大量实验,同时利用了多模态数据在识别任务中验证了实验设计。实验表明,文本模态的数据可以丰富图像数据中所不具有的信息,因此极大地改善了细粒度识别任务的分类结果。
其他文献
【正】笔者对2006年我市食品药品监督管理局日常监督性抽验的药品质量情况分析汇总,对目前市场上的药品质量进行了分析,并有针对性的提出了一些对策、建议,为今后更科学的进
研究了臭氧存在下,在磷化液中添加Ni2+改善磷化膜耐蚀性能的情况。结果表明,在臭氧浓度为1.62mg/L、Ni2+为0.8 g/L、pH值为2.75的磷化液中,40℃处理5 min获得的磷化膜膜层致
目的:比较万拉法新与氯丙咪嗪治疗抑郁性神经症的疗效及副反应。方法对符合CCMD2-R抑郁性神经症诊断标准的病人,随机分为万拉法新组和氯丙咪嗪组,治疗12周后,用汉米尔顿抑郁量表(H
科学发展观是中国共产党宝贵的执政资源,它是中国特色社会主义理论体系的重要内容,是马克思主义中国化时代化大众化的最新产物。因此,十七届五中全会把科学发展作为"十二五"时
教育部制订的新的高中《英语课程标准(实验稿)》在教学建议中明确提出要“倡导任务型教学途径,培养学生语言运用的能力”。即教师要“依据课程的总体目标并结合教学内容,创造性设
目的介绍使用改良Brisson手术治疗隐匿性阴茎20例的方法和效果。方法手术通过用阴茎腹侧倒“V”形切口改良Brisson术来完成,松解阴茎至阴茎悬韧带直至阴茎体完全伸展外露后,修
教师文化研究已成为当前教师研究的一个热点。很多研究都认为教师文化是影响教师教育教学工作的重要因素。但对教师文化的研究,则多停留在教师作为一个职业人这一身份上,关注学
湖北清江水布垭水利枢纽溢洪道弧形闸门为横主梁三斜支臂结构,制作工艺复杂,通过弧形平台制作放样、下料卷制、焊接等方法、手段,采用科学合理的焊接工艺及拼焊顺序,保证了该
本文从工作态度的两个方面,工作满意度和组织承诺,对国有银行员工的离职问题进行分析,希望能够为银行业的人力资源管理提供一定的建议。
<正>耳廓为头部的显露部分,易单独遭受各种直接外伤。耳深部的外伤则常伴发于颜面他处或颅脑外伤。除直接暴力(如利器外伤,拳击等)外,间接暴力(如爆炸气浪、震荡、巨响等)也
会议