面向视觉任务的条件注意力机制的研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:shevafans
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习以及大数据的发展给人工智能带来了极大的突破,在计算机视觉、自然语言处理、语音识别等领域有着广泛的应用。其中在计算机视觉任务中,真实图像存在背景复杂、目标主体信息不突出的特点,通常在图像的预处理工作中对物体进行人工标注。然而人工标注需要耗费大量的人力和时间,并且传统的深度学习模型对整个图像数据进行编码,无法找出图像中的关键区域。因此如何在不依赖人工标注的情况下找出图像中物体所在的位置是计算机视觉任务中值得研究的问题。深度学习中的注意力(Attention)机制模仿人类的视觉系统,选择性地关注图像中的ROI(感兴趣的区域),同时忽略其他可见的信息,这一特点使得注意力机制适合解决弱标签下的视觉任务,然而传统注意力机制在视觉任务的应用中(比如多目标识别、图像描述生成)仍然存在一些限制和不足之处。因此本文针对上述问题,提出了一种面向视觉任务的条件注意力机制,并给出相应的实验分析。本文主要完成以下方面的工作:(1)针对传统注意力方法在门牌号识别任务的不足之处,本文提出了一种条件注意力机制,通过衡量条件全局特征和CNN局部特征的相似度计算每个目标的注意力特征。首先从原理上对模型结构进行了详细的阐述,并验证了条件全局特征设计的合理性,最终通过实验证明模型在门牌号识别任务中达到了目前最高的识别准确率,并通过可视化图直观地展现了注意力聚焦的关键区域。(2)针对弱标签下的多目标分割和图像描述生成任务,本文在条件注意力机制的基础上注入语言模型,在解码端利用双向LSTM结构生成高质量的描述性句子。本文从理论上证明了模型的可行性,并且详细阐述了模型的结构和原理,其次介绍了实验所采用的数据集以及图像描述生成任务的客观评价指标。最终在弱标签下的多目标分割实验中,模型在不依赖标注信息的情况下根据句子中的名词分割出图像中的物体;在图像描述生成实验中,模型在MSCOCO数据集上的性能超越了传统软注意力模型,取得了一定的效果。
其他文献
防老剂RD(2,2,4-三甲基-1,2-H-二氢喹啉)是重要的橡胶助剂之一,由于它价格低廉、低毒无害并且具有较好的抗氧化性,目前广泛应用于橡胶工业生产中。防老剂RD由不同程度的聚合
自商周以来,北方少数民族就有在秋冬季进犯中原的传统。中原王朝为应对其进犯,采取相应的季节性防御措施,但直到中晚唐,季节性防御才正式制度化,并正式赋予其防秋之名。唐以
近年来,随着互联网的迅速发展,网络信息量呈爆炸式增长。海量的信息虽然让用户有了更多地选择,但同时也造成了用户选择信息时的迷茫和无助。因此,相关学者们为解决此问题开始研究各种办法,推荐系统属于一种对此问题比较有效果的解决办法。其基本思想在于对用户的历史行为数据进行挖掘和分析,深入的理解用户和项目之间的关系,帮助用户在海量的信息中选择用户最有可能感兴趣的内容推荐给用户,让用户不再有面对海量信息时的无助
金属零件在生产加工和使用过程中不可避免的会产生裂纹等缺陷,在生产过程中,金属表面常见裂纹有铸造裂纹、锻造裂纹以及热处理裂纹等;在使用过程中,由于长期受到外界交变应力
近些年来随着电子信息产业的迅速发展,氧化物半导体由于其高迁移率(-1-100 cm2/Vs),可低温甚至室温制备,可见光透明度高,可大面积加工,以及工艺成本低等优点在柔性/透明电子
学生对科学本质的理解是科学素养的重要组成成分之一,科学本质教学一直以来也是国内外科学教育研究的重点。当前国内有关科学本质教学研究主要分两类:一类聚焦于教师科学本质教学策略、模式的应用或教师科学本质观的提升,来促进学生对科学本质的理解;另一类则是对教师科学本质教学行为的分析,主要探讨教师的科学本质观与其行为的关系,或教师科学本质行为与话语的构建,但未从学生视角考虑教师科学本质教学行为的实效。且事实上
龚鼎孳是明末清初的著名诗人、文学家。因他历仕明、李自成大顺、清三朝,所以被列为贰臣中的一员。龚鼎孳诗歌成就尤为突出,时人把他与江南的钱谦益、吴伟业并称“江左三大家
近年来,有机无机杂化钙钛矿材料以其优异的光电性能,在光调控器件上得到广泛的应用。但是由于工艺限制,制备大面积质量均匀、结晶良好的有机无机杂化钙钛矿材料薄膜仍然是目
随着互联网的迅速发展,无线网络的覆盖面也越来越大,同时,国际上对5G技术的激烈竞争,使得全世界都在进军无线领域。截止到目前为止,多种多样的无线应用设备已经出现在市场,而这些无线设备的通信都会使用到一种不可再生的资源,也就是频谱资源。近几年,随着无线电技术的迅速发展,各国对无线电频谱资源的需求快速增长,但国际上对频谱的分配还是静态的分配,使得频谱利用率极低。竞拍机制作为一种有效的买卖手段经常应用在稀
嗅觉器官是人体最重要的感官之一,在人类日常生活中扮演着非常重要的角色。随着年龄的增长,老年人嗅觉退化,给老年人生活和家庭带来极大不便。而这种衰退可能会受性别的影响,适量运动能够降低老年群体嗅觉鉴别衰退的风险。但尚无研究探讨嗅觉何时开始衰退,嗅觉的性别差异是否会受不同年龄阶段影响,以及运动与老年群体嗅觉阈值相关性的研究。因此,本研究将从三个方面展开。研究一主要探讨嗅觉鉴别能力的年龄特征,即人类嗅觉鉴