基于多尺度特征和视觉—文本对齐的遥感图像描述生成研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：george890120

【摘要】

：

【作者】

：

黄海燕

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

遥感图像描述生成任务结合了计算机视觉领域与自然语言处理领域,不仅要提取复杂场景遥感图像视觉特征,还要用准确自然、丰富流畅的语言对其进行描述,在遥感图像检索,军事侦察领域等领域都发挥着十分重要的作用。近年来,受益于卷积神经网络的深度特征提取能力以及循环神经网络和长短期记忆网络对时序信息的建模能力,基于深度学习的方法成为目前研究的主流。但是由于遥感图像本身的背景复杂多角度多尺度等特性,如何准确表达遥感图像特征以及实现不同模态视觉区域特征和描述词汇的对齐仍然是制约目前遥感图像描述生成精度的主要因素。本文主要针对遥感图像的视觉特性表达以及复杂场景下的语义描述问题开展以下研究:针对遥感图像的多尺度以及背景复杂性特性,本文在编码端引入了多尺度特征提取模块,其分别通过使用不同大小的卷积核获得不同的感受野和特征金字塔的方式来实现遥感图像多尺度特征的提取。针对细粒度遥感图像多尺度特征的有效利用问题,本文提出了特征融合模块,分别利用多层感知机和Transformer来对多尺度图像特征进行局部和全局建模,自适应地融合多个尺度的图像特征,实现特征优化。针对解码过程中图像与文本的语义关联难题,本文在解码端提出了一个基于视觉文本对齐的解码网络,实现解码过程中实现视觉区域和描述词汇的对齐,通过门控机制增强注意力结果,然后引入上下文向量自适应地选择视觉特征和语句信息来生成优化的描述语句。此外,本文综合分析了本文所提的基于多尺度特征和视觉-文本对齐的遥感图像描述生成模型（Multiscale Feature and Visual-Text Alignment Network,MFVTA-Net）的性能,利用目前标准的公开数据集对所提模型的有效性进行了验证,表明本文提出的模型在句法准确性和语义流畅性方面具有更好的性能。

其他文献

面向屏幕内容的帧内编码优化算法研究

近年来,包含电脑生成的图形、文本和动画的屏幕内容（Screen Content,SC）越来越受到人们的欢迎,如屏幕共享类型视频。其中,屏幕内容编码在屏幕共享方面发挥着极其重要的作用。然而,屏幕内容编码仅仅沿用了普通编码器的帧内预测框架,屏幕内容的帧内预测编码仍存在提升空间。因此,本文分别针对屏幕内容的帧内划分树结构和帧内预测模式对帧内的编码算法进行优化。一方面,针对帧内预测的双树划分结构进行优化。

学位

面向嵌入式摄像头的轻量级高效目标检测算法研究和应用

在嵌入式摄像头系统中实现基于机器视觉的目标检测算法,是安防领域走向智能化的重要一步。传统的深度学习算法设计与实际部署至目标平台是相对独立的两个环节,由于设计平台与实际部署平台之间存在的硬件架构差异,许多GPU平台上设计得到的算法无法充分利用目标平台的硬件计算能力,该问题已经成为许多研究人员关注的焦点。针对目前嵌入式摄像头部署的智能算法无法充分利用硬件计算资源,算法精度与实时性无法兼顾的问题,本文研

学位

基于自监督异构学生网络的异常分割算法研究

随着社会的发展和深度学习技术的完善,构建深度学习模型自动分割图像中异常模式,成为了计算机视觉领域的研究热点之一。该项任务具有重要的研究价值和广泛的应用前景,例如其可被应用于质检领域,发现产品上存在的瑕疵。然而,该项任务还存在着巨大挑战,如异常样本难以获取,异常区域视觉可分辨性低,异常模式具有未知性等,因此通常要求模型能在基于正常图像学习的情况下,对待检图像中的潜在异常进行分割。基于上述任务设置,近

学位

基于链接预测和知识抽取的科研领域知识图谱补全

科研领域知识图谱将科研平台下的海量数据以图结构形式彼此关联起来,使其更符合人类的认知思维,方便了科研人员对领域知识的组织和管理。然而,当前科研领域知识图谱存在知识缺失的情况,导致其下游应用效果欠佳,因此对科研领域知识图谱进行补全至关重要。本文提出了一个知识图谱补全模型Trans-Cap Net,模型主要包括两部分:利用图谱现有知识进行补全的链接预测部分和利用外部数据源知识进行补全的知识抽取部分。在

学位

基于深度学习的交通标志检测系统研究与实现

交通标志检测是自动驾驶任务中的重要一环,也是当前的研究热点之一。然而,现有的交通标志检测算法仍然存在一些问题,比如计算量大,检测速度较慢;训练流程复杂;对交通标志的细粒度分类能力较差等。本文充分调研了交通标志检测领域的数据集和算法,根据交通标志数据集的特点和计算机视觉相关领域中各算法的解决思路,对交通标志检测任务中存在的问题和难点展开了研究,本文主要的工作内容和创新点总结如下:1)现有的交通标志检

学位

基于超像素分割的深度图优化及沉浸式视频终端

沉浸式视频能在提供沉浸式视觉效果的基础上,实现用户与视频内容间的交互,显著提升用户的观看体验。该类视频的独特优势引起了科研人员和数字媒体行业的广泛关注,MPEG动态图象专家组正在对其制订相关的国际标准。然而,不准确的深度估计和编码压缩造成的深度误差问题是当前沉浸式视频面临的挑战,会导致合成视点深度图存在噪点区域和偏移的边缘区域,从而影响合成视点的质量。此外,目前行业内还不具备提供规范沉浸式视频业务

学位

酸溶消解-质谱法测定地球化学样品及稀有、稀土矿中铌和钽

本文针对地球化学样品、锂矿石、铌钽矿和稀有稀土矿中铌、钽分析中出现测定结果偏低的问题，从样品溶解率、溶液中铌、钽的水解情况和所用仪器分析情况考虑，对常压酸溶法和高压密闭酸溶法两种预处理方法进行改进，以提高铌和钽的溶解率。用具有耐HF进样系统的电感耦合等离子体质谱仪（ICP-MS）测定两种溶解方法所得不同介质溶液中的铌和钽，分析其不同溶液中的稳定性，找到最佳的提取液介质。确定了铌、钽在含0.1%HF

期刊

肾结石粉碎手术冲击波入射点规划辅助工具设计与实现

体外冲击波碎石手术具有创伤小、治疗效果好等诸多优点,常被用于肾结石患者的治疗。随着科学技术的发展,人们发现将科技同传统医疗结合可以有效提高医疗质量。智慧医疗的推广极大促进了医疗设备的研发,于是大量医疗设备被引入到了体外冲击波碎石手术中。然而,当前手术设备不参与医生的决策,仅仅起到了提供视野和发射冲击波的作用,冲击波入射路径完全由医生凭借自身经验决定。在当前手术环境下,医生选择冲击波表皮入射点时需要

学位

基于多视角融合的智慧教室学生视觉注意力估测工具

随着线上线下混合式教学的新型教学形式的出现,课堂的数字化虚拟化成为未来的发展趋势,在进行课堂数字化的过程中,学生的空间姿态和视觉注意力测量作为今后研究的重点之一,受到国内外大学的研究和关注。在先前研究工作中,多针对传统的排座式布局的教室类型,考察学生面向前方固定区域的视觉注意力。而随着智慧教室的大规模建设,教室内的座位组合方式和教学呈现内容来源出现多元化,师生交互也更加频繁,现有工作不足以应对活动

学位

面向疲劳驾驶的设备管理平台设计与实现

学位

基于多尺度特征和视觉—文本对齐的遥感图像描述生成研究

与本文相关的学术论文