基于自然语言的弱监督图像目标定位算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:aquarius215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能发展到今天,机器对于多模态数据之间关系的处理和理解越来越重要。视觉图像和其自然语言描述的相关性关系的研究是其中一个重要的问题。它在图像和文本的定位、双向检索、图像标注、视觉问题回答(VQA)、图像分类、zero-shot learning等都有应用。人类描述物体是通过语言的方式表达的,语言对于人类区分物体概念非常重要。为了更好的模仿人类,更好的让机器理解图像和语言的关系,本文分别从单目标细粒度图像、多目标自然图像两个方面对基于自然语言描述的图像目标定位算法展开深入研究。具体的研究工作如下:本文设计的细粒度图像和其语言描述定位框架。本文在卷积神经网络中,本文从输入的图像中提取卷积特征图。同时使用基于自注意力机制的Transformer结构对语言描述进行编码,提取出语言描述的特征向量。然后,在图像的像素级别上和语言描述的word进行模态间的细粒度语义对齐。将卷积特征图和语言描述特征向量进行特征匹配,并对特征匹配图Match Map进行处理,得到物体的mask图,根据mask图得到最终定位的结果。经过试验,本文在CUB-20-2011数据集上取得了不错的定位效果。本文在单目标细粒度图像的基础上,首先建立了一个动态的短语词典,并学习了多重视语义表示来解决图像-短语标注的问题。本文从每个短语实例中获取多重语义作为键,并建立动态键字典队列,然后使用卷积网络来学习图像的多个区域的特征表示作为查询。最后计算每对Query-Key的余弦相似度,选择具有余弦相似度的最佳Query-Key对,并通过对比学习优化图像短语相似度。从一个短语中学习多个语义特征可以使网络学习到更可靠的语义特征表示,避免网络对图像中最重要的区域和短语中最重要的单词过于关注,并且还可以更有效地减少短语中噪音的负面影响。动态keys字典队列使本文可以摆脱批处理限制,并执行更有效的比较学习。实验表明,与其他短语目标定位方法相比,本文的方法在公开数据集上准确率大幅提升5%。
其他文献
随着信息技术的快速发展和广泛应用,各行各业积累了大量的数据信息,如何对这些海量数据进行有效处理,并从中挖掘潜在的有用信息,是目前的一个重要研究领域。聚类分析作为数据
近年来,随着多媒体技术的快速发展,立体视频逐渐成为视频领域一个新的研究热点。立体视频可以给人们带来更加真实的体验,但同时也存在着数据量过大的问题,这给数据的存储和传
现如今城市发展已趋于全球化,我国为促进共同繁荣、共同发展提出“一带一路”的战略构想,为融入国家“一带一路”战略构想的建设,吉林省提出“一主,六双”的产业发展布局,长春在这一背景之下有着极其重要的地位,发挥其优势势在必行。长春,从清朝后期的居民点发展为封建边疆集镇,外来势力的入侵又让长春被迫经历了铁路城市、伪满洲国“首都”的发展,新中国成立后,长春在城市建设与规划的道路上不断摸索前进,不断吸收、学习
随着全球生态环境的日益恶化,化石能源持续消耗,以美国、日本为代表的发达国家积极发展新能源汽车产业。我国自上世纪九十年代开始布局新能源汽车产业,并跟随国家“五年计划
直接甲酸燃料电池(DFAFCs)具有较高的能量密度和使用电解质燃料甲酸(HCOOH)的安全性的特点,以及甲酸电池电源系统的可模块化的优点使其在燃料电池中具有广阔的前景。目前工程应用和学术研究中关于直接甲酸燃料电池一直是热门领域,然而甲酸燃料电池中的钯(Pd)基催化剂仍存在反应途径优化和CO中毒改进的问题。为提高DFAFC中碳载Pd(Pd/C)催化剂对甲酸氧化的电催化性能,本文从Pd基双金属催化剂和
随着智能设备和社交媒体的飞速发展,互联网上的图像数据量爆炸式增长,因此通过计算机对这些数据进行自动地分析处理成为了非常迫切的需求。其中,图像物体检测和语义分割是计
随着5G无线通信技术研究热潮的到来,信息传输速率得到了迅速的提升,同时移动终端的客户量也逐渐增加,因此,在传输过程中用户保密信息的安全性和可靠性就显得尤为重要。基于传
肌肉在静止或松弛状态下的紧张程度称之为肌张力,肌张力的正常与否将直接影响到人的正常生活。对肌张力的研究不仅有助于医护人员对患者病灶部位的定位,也有助于治疗帕金森等
文化是人类在社会历史发展过程中所创造的物资财富与精神财富的总和。随着城市的快速发展,在城市规划中越来越重视城市历史文化的延续和应用,现在城市面貌日趋雷同,为此更应该重视和加强地方文化的研究。长春是从一个封建边疆城市到现在东北亚的中心城市,这其中深厚的城市文化底蕴与历史文脉成为了长春发展成大都市的重要因素。因此,对于长春市城市规划历史中所存在的文化内涵与文化影响予以研究,对长春市的未来发展有着很大的
随着我国全面建设小康社会的快速推进,在此过程中,提高居民收入,促进地区经济发展、提升居民幸福感的重要性不断凸显。而与此同时,全国乃至各地政府也意识到了产业集聚对区域经济发展的重要性。然而,在各地推进产业集聚促进经济发展的同时,产业集聚与居民收入之间不协调的现象却越发凸显。对于一些地区的高集聚度产业,其集聚程度实际上负向影响着居民收入。产生这种现象的原因是多方面的,其中产业本身的发展状况和产业集聚对