应用空间和视觉注意力机制的图像描述方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:hello_junz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务旨在利用自然语言描述出图像包含的内容, 在计算机视觉和自然语言处理研究领域中图像描述任务受到学术界广泛的关注. 本文针对基于编码器-解码器的图像描述框架在生成自然语言描述过程中图像特征不能充分利用, 图像特征和文本语义信息之间关联性研究存在不足, 提出一种应用空间与视觉注意力机制的图像描述方法. 本文通过对空间注意力模块进行改进来增加注意结果和查询之间的相关性, 将改进的空间注意力机制和视觉注意力机制应用到解码器中, 通过对图像的上下文信息和长短期记忆网络隐藏层进行融合处理后输出图像描述
其他文献
为有效利用高光谱影像与LiDAR数据的互补性信息,解决单一融合策略造成的场景解译地物边界不准确和分类精度低的问题,提出了一种光谱-空间-高度特征融合、并顾及场景地物类别共生特性的条件随机场分类方法。首先,对两种数据分别提取光谱及形态学特征、对特征集采用图模型进行特征融合、将特征输入概率支持向量机分类器,得到初始分类结果。然后,基于融合特征计算反映像素间类别本质差异的局部光谱-空间-高度协同的异质性
期刊
针对不具备检修资质的人员误入检修现场和现场检修人员难以近距离查看设备铭牌的问题,研究了基于人工智能算法的作业现场人员设备资质识别技术。针对现场作业中的设备和人员分别采用不同的文本检测技术和人脸识别技术,展开设备、人员的资质识别技术研究。文本识别将融合连接文本提议网络(Connectionist Text Proposal Network,CTPN)、密集连接卷积网络(Dense Convoluti
期刊
时尚专家对于服饰搭配往往需要通过服饰的视觉属性(如颜色、图案及纹理等属性以及它们之间的组合)作为重要指导,进行有效地提取服饰视觉属性并用其改进传统的服饰搭配模型,对提升服饰搭配的有效性具有重要意义。本文在利用预训练的卷积神经网络中不同层次的卷积核来提取不同粒度的视觉属性(即视觉单词)的基础上,结合服饰的文字描述,采用多语言潜在迪利克雷分布模型进行多模态、无监督地挖掘出服饰风格特征。通过在双向长短时
期刊
为了在揭示数据全局结构的同时保留其局部结构,本文将特征自表达和图正则化统一到同一框架中,给出了一种新的无监督特征选择(UFS)模型与方法。具体来说,模型使用特征自表达,用其余特征线性表示每一个特征,以保持特征的局部结构;用基于L_(2,1)范数的图正则化项,在保留数据的局部几何结构的同时可以降低噪声数据对特征选择的影响;除此之外,在权重矩阵上施加了低秩约束,保留数据的全局结构。在6个不同的公开数据
期刊
针对现有的图像分割技术在小样本量数据集上容易过拟合,不能有效分割缺损图像的问题,提出了一种自约束图像分割方法。首先,基于传统无监督水平集图像分割方法,提出一种可微分水平集层。第二,将可微分水平集层嵌入U-Net等有监督图像分割模型中,使得水平集方法对函数的拓扑约束,可以随着梯度反向传播过程,对卷积参数起到约束作用。实验结果表明,在MNIST和Fashion-MNIST简单数据集上,本文方法的分割准
期刊
针对细粒度车型识别率低,车型区别主要集中在鉴别性部件上,深度学习不能有效对部件进行关注的问题,提出一种基于部件关注DenseNet (part-focused DenseNet, PF-DenseNet)的细粒度车型识别模型,该模型能基于细粒度车型的车灯和车标等区分性部件进行有效分类,首先通过处理层(process layer)对车型部件信息反复加强提取并进行最大池化下采样,获取更多的车型部件信息
期刊
为了开发一种检测精度高,检测速度快的圆检测方法,研究者们进行了大量的研究。然而,现有的圆检测方法都依赖于边缘检测器获取的边缘图进行计算,边缘图不仅包含大量无效边缘,而且将有效的圆弧边缘也混杂为一体,不利于多圆检测。受到卷积神经网络在其他领域成功的启发,本文提出一种基于卷积神经网络的圆检测方法。本文方法利用目标检测技术和语义分割技术将多圆检测任务划分为多个单圆检测任务,并且能准确地提取圆的边缘信息(
期刊
识别多尺度目标是检测任务中的一项挑战,针对检测中的多尺度问题,提出自适应上下文特征的多尺度目标检测算法。首先,针对不同尺度的目标需要不同大小感受野特征进行识别的问题,构建了一种多感受野特征提取网络,通过多分支并行空洞卷积,从高层语义特征中挖掘标签中的上下文信息;其次,针对不同尺度目标的语义特征出现在不同分辨率特征图中的问题,基于改进的通道注意力机制,提出自适应的特征融合网络,通过学习不同分辨率特征
期刊
在视频理解任务中,为了减少行为检测任务中的数据标注成本同时提高检测精度,本文提出一种基于骨骼数据的弱监督视频行为检测方法,使用视频级的类别标注对行为检测网络进行弱监督训练。本文以二维人体骨骼数据和RGB图像数据作为网络输入,利用循环神经网络从骨骼数据中提取时域信息并送入全连接层输出所需的特征。骨骼数据提取的特征与RGB数据提取的特征分别传入注意力网络生成相应的权重,用来生成加权特征与加权时序类别激
期刊
针对机载飞机视频摄取与监视中,由于背景稀疏和前景的大幅度快速运动,造成实时稳像算法存在的画面不稳定的问题,提出了自适应Shi-Tomasi机载视频空中目标实时优化稳像算法。首先根据提取特征点分布自适应地改变Shi-Tomasi角点检测~([1])阈值,解决单一阈值不能适应空中复杂稀疏背景特征点提取的问题。然后构建带约束的实时优化算法,计算平滑的视频路径,解决基于滤波的算法缺少约束导致画面偏移过大的
期刊