基于注意力与重排序的遥感多媒体检索研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:iloveyanqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着卫星遥感影像技术的快速发展以及互联网的普及,高分辨率遥感图像变得越来越容易获取,同时促使遥感图像的数量在近年来得到爆炸式增长。面对大规模的遥感图像数据,如何快速检索所需的遥感图像,是当前数字地球系统建设过程中亟须解决的问题。在数据检索任务中,使用深度神经网络提取的深度特征比使用传统方法提取的手工特征有着更好的检索效果。然而,计算高维连续深度特征之间的相似性距离需要花费大量时间。为了又快又准的进行数据检索,基于深度哈希的方法被提出。根据对遥感图像查询数据模态的不同,本文主要使用深度哈希技术对单模态的基于内容的遥感图像检索以及跨模态语音—遥感图像检索任务进行研究。本文的主要工作及贡献如下:(1)介绍深度神经网络的工作原理及其应用;总结了深度哈希算法的一般框架,并对经典的单模态深度哈希检索方法与跨模态深度哈希检索方法进行概述;简述关于遥感图像的单模态检索与跨模态检索的研究,并分析当前研究中所存在的缺点与面临的挑战。(2)在单模态的基于内容的遥感图像检索任务中,针对遥感图像特征表达不充分,提取的深度特征易受到无关背景信息干扰,进而降低所生成哈希码区分度的问题,提出了一种基于注意力的遥感图像哈希检索方法。该方法采用了一个兼顾遥感图像通道与空间信息的注意力机制,提取遥感图像中更具有区分度的视觉信息;嵌入一个哈希层,针对离散哈希码进行优化训练;在检索阶段,引入类别信息作为海明距离度量的权重,进一步提升检索精度。经过实验验证,提出的方法可以取得先进的检索效果。(3)在跨模态语音—遥感图像检索任务中,为了构建语音与遥感图像之间的对应关系,并减小语音与图像之间的语义鸿沟,提出了一种基于重排序的语音—遥感图像哈希检索方法。所提出的方法首先将语音与遥感图像映射到统一的特征空间;接着设计一个语音—语音哈希检索网络,为查询语音检索多个语义相似的语音;最后使用语音—图像哈希检索网络为每一个检索到的语音找到语义相似的遥感图像,并将出现频率最高的遥感图像作为最后的检索结果。通过在两个跨模态遥感图像数据集上的大量实验,验证了根据提出的方法检索到的遥感图像可以具体的反映出查询语音的内容。
其他文献
党的十八大以来,党中央在许多场合高度强调提升舆论引导力。面对竞争激烈的传播生态,亟需正面宣传鼓舞士气、团结人心。本文选择2013年8月19日至2019年12月31日之间的新华网正面宣传报道过的新闻文本作为研究对象,综合运用抽样调查法、话语分析法和文献资料法等方法,借助荷兰学者梵·迪克的话语理论对此展开研究。通过对新华网正面宣传的2035篇样本话语分析后,发现话语具有行动的力量,借助话语可以发挥凝神
学位
新疆是我国棉花的主产区,坐拥中国八成以上棉花产量,近年来,新疆棉花年产量达500余万吨。丝绸之路经济带沿线的印度、巴基斯坦、乌兹别克斯坦、土库曼斯坦、哈萨克斯坦、塔吉克斯坦、吉尔吉斯斯坦、土耳其等产棉国,与我国新疆及内地棉区,构成了世界最大的棉花产区—丝绸之路经济带棉区,其棉花产量全球占比约70%。在丝绸之路经济带棉区,新疆棉花产业的地位举足轻重。中国与丝绸之路经济带沿线及其他相关国家棉花贸易往来
学位
零售网点的空间集聚现象是经济地理学、城市规划、经济学等诸多学科中重要的研究方向之一,布局的合理化对城市规划、基础设施建设、资源优化配置、满足居民消费需求等都有重要影响。零售网点的数量、企业类型和商业选址决定着零售网点未来发展趋势,是连接制造业企业与消费者之间的重要纽带。本文采用POI数据作为样本数据,借助ArcGIS软件平台,通过核密度估计和平均最近邻距离分析对零售网点空间分布特征进行研究,采用因
学位
精准度量用户之间的影响力进而针对目标对象发现个性化的影响力用户在精准营销、专家发现以及舆情研究等领域有着重要作用。传统研究大多基于用户网络结构来度量用户之间的影响力,然而由于缺乏用户语义信息,这种方法并不能完全表征用户之间的影响力。另一方面,随着位置社交网络迅速普及,人们越来越多地使用相关平台分享信息,进而产生了海量的社交关系及用户行为数据,使得基于用户语义行为信息精准研究用户之间的影响力成为了可
学位
随着经济全球化的不断深入,区域之间经济发展关系亦复杂多样,传统区域经济理论需要注入新的元素以适应不断演化的经济发展关系。既有的区域经济理论,基于单一经济主体发挥辐射作用带动周边区域(城市)发展的研究范式,忽略地缘比较优势,无法形成多元经济主体交互影响的经济发展格局。对于国内而言,同样存在区域间发展关系的复杂性问题,伴随着我国改革开放的步伐,区域间经济发展关系不断加深,但我国中西部经济发展失衡的问题
学位
阿盟国家不仅是中国外贸市场多元化战略的主要市场,也是“一带一路”建设的重要区域之一。在横跨欧亚非3大洲的65个“一带一路”沿线国家中,阿盟国家占沿线国家总数的1/5。近年来,中国与阿盟国家的双边贸易快速增长,2018年中阿贸易总额为2443亿美元,比2000年增长了15倍,占中国外贸比重达到5.2%。阿盟国家积极参与“一带一路”建设,中阿双方已在基础设施、交通物流、境外产业园区、跨境电子商务和金融
学位
伴随着“数字地球”概念的提出,卫星影像应用在了越来越多的领域之中,并且发挥着十分重要的作用。卫星影像在获取、传输和利用过程中,由于各种不确定的因素,极其容易受到外界的干扰,从而导致引入噪声,降低图像质量,进而影响后续任务的进一步处理和实际应用效果。因此,需要对受到噪声污染的图像进行去噪。图像去噪历来都是被重视的领域。随着深度学习的兴起,基于深度学习的卷积神经网络图像去噪在近些年取得了丰富的成果,但
学位
随着人工智能领域的飞速发展,图像描述任务作为实现人机交互的关键技术成为了一项重要的研究课题。该任务不仅需要对图像中的内容进行准确的识别,同时需要理解图像中各个物体之间存在的关系,是一项十分具有挑战性的任务。目前基于深度学习的编码器-解码器图像描述算法框架使得算法性能大大提升。然而,依然存在着以下不足:(1)在使用长短时记忆网络进行解码生成图像描述本文的过程中,图像特征会被压缩到一维空间中,破坏了原
学位
行人重识别是一种从不重叠视角的多摄像头监控图像或视频中匹配目标行人的方法,是当前计算机视觉中最活跃的研究领域之一。由于实际监控场景的复杂性,拍摄到的行人图像会出现视角变化、背景物干扰和空间不对齐等问题,给行人重识别的研究带来了很大的挑战。为了解决上述提到的这些问题,本文使用一种成熟的单人姿态估计方法——解析引导学习器训练好一个姿态估计模型,获取了行人图像的16个关节点的坐标信息。依据这些关节点划定
学位
随着卫星遥感技术迅猛发展,空间对地观测技术已成为国家综合实力的重要体现。视频卫星的出现将对地观测数据时间分辨率提升至秒级,更适于监测目标区域的动态变化,应用需求也从传统定期静态普查转向对重点区域运动目标实时监测方向发展。卫星视频具有幅宽大、环境复杂,运动目标较小、特征匮乏、与背景区分度低等特点,与传统监控视频提取运动目标相比具有新的挑战。复杂背景引起的伪运动对小尺寸运动目标的检测带来干扰,同时复杂
学位