基于语义增强的视频描述生成研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:hejunfeng206
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能和深度学习的快速发展,跨模态识别研究有了很大的突破。视频描述生成是一个结合了计算机视觉与自然语言的跨模态任务,它的目的是将给定的视频转换为人类可以理解的自然语言序列。简而言之,理解视频的内容对于视力正常的人来说是件简单的任务,但是对于机器或视力残障人士来说却是困难的,它可以帮助视力残障人士理解视频中的信息。视频描述生成在视频检索、人机交互等众多领域都有潜在的应用前景,这需要对视频和自然语言两种模态进行复杂的语义理解。视频包含动态的信息、复杂的动作和对话场景,从视频的视觉内容中提取和理解丰富的语义具有很大的挑战性。此外,自然语言的语法复杂,视频的帧序列与文本描述之间没有明确的对应关系,这增加了视觉-语言翻译的难度。本文提出了一种语义增强的视频描述生成方法。该方法基于编码器-解码器网络框架。在编码端,模型利用卷积神经网络来提取视频特征,并进行计算和融合。之后,该模型使用了一个循环神经网络对视觉特征进行进一步的编码。在解码端,模型使用循环神经网络生成描述语句,并利用注意力机制,在生成描述单词的不同时间步权衡不同局部的特征。最后,方法采用强化学习的思想计算语义奖励,对模型进行优化。此外,在语义增强优化的基础上,本文进而提出了一个拓展模型,即双流关注的视频描述方法。这种拓展模型使用两个循环神经网络分别对视频的表观视觉特征和动作视觉特征进行编码,并采取更加细粒度的注意力机制,实现了多特征的异步融合。本文使用多个评价指标对所提模型生成的描述进行了评估,实验证明了所提方法的有效性。
其他文献
激光雷达是探测大气的一种有效手段,常应用于探测大气气溶胶分布、空气污染物分布、大气成分组成、大气气象参数等场景。激光雷达具有实时性好、时空分辨率高、重复性好等突出优点。为了提升激光雷达的移动性,增加探测范围,车载扫描激光雷达得到更多的重视。根据实际项目需求,本文以某车载大口径扫描激光雷达收发装置的研制为研究内容,论述了该系统的设计理论、设计模型和装调结果。该车载大口径扫描激光雷达收发装置光学系统由
大量的人类知识是以非结构化自然语言文本的形式传递的,因此使机器能够阅读和理解文本具有重要的意义。近年来,随着许多该领域数据集的涌现以及深度学习的进步,机器阅读理解在自然语言处理领域受到了广泛的关注。本文专注于研究基于语境化词嵌入与注意力方法的机器阅读理解模型,探索如何解决许多基线模型存在的准确度不足以及训练和推理速度缓慢的问题,主要研究成果如下:(1)部分经典基线模型无法有效结合上下文信息进行进一
人类自身所发出的声音与其面部图像之间存在着复杂的关联性,并且可从声音信号中推断出与该说话者面部有关的静态属性信息和动态变化信息。语音驱动人脸生成的任务正是挖掘语音信号与面部图像之间的静动态关联性,构建相应的视听觉跨模态图像生成模型,实现由给定的语音片段来生成静态人脸图像和动态人脸序列。现有的方法在研究静态人脸图像生成时多是利用时序对齐的视听觉数据集来实现身份一致的人脸生成,但是在实际测试过程中由于
异常检测作为计算机视觉中的一个重要分支,广泛地应用于公共安全、欺骗检测、视频监控等领域中。“异常”数据根据实际情况的变化而有所不同,本文中的异常主要是指预期以外的事件,通常伴随图像模糊、颜色失真、光流突变等。受制于异常数据量较少且分布广泛、标记数据的耗时等问题,结合一分类思想的生成对抗网络模型已成为主流,本文首先介绍当前较为流行的基于重构的异常检测模型,训练时只使用正常数据进行训练,学习到正常数据
技术对于解决视频数据量不断增长所带来的浏览耗时的问题有着重要的意义。视频摘要即对视频的概括,按照生成的摘要形式可以分为静态视频摘要和动态视频摘要。在实际工程应用中,静态视频摘要技术更为常用,因此本文主要研究静态视频摘要算法,旨在通过一定的技术手段去除视频中的冗余信息,并选取视频中最能代表视频内容的关键帧生成简短的摘要。本文分析了现有的视频摘要算法所存在的一些不足之处,然后提出了两种全新的基于多特征
随着智能信息化时代的到来,诸如图片,视频,文本以及音频等不同模态数据在互联网上与日俱增,这些多模态数据以不同的形式描述着生活中复杂纷繁的场景,并为彼此提供了有用的互补信息。不同模态的数据在其原始形态上呈现出明显的异质性,难以直接将它们从语义层面建立关联。因此,需要将不同模态数据映射到共有子空间并减小它们之间的差异性。跨模态表示学习旨在减小不同模态数据在特征层面的差距,建立起模态间的语义联系并扩大模
目标检测是计算机视觉中的重要分支,由于不同场景之间的特征分布差异(如背景、光照等),在公共数据集上训练的目标检测框架在现实场景中使用时往往会出现性能下降的问题。解决该问题的方法是采用域自适应技术使在源域训练的模型在目标域中也可以很好的使用,但是传统的自适应方法通过对齐不同域之间的边缘分布以减少特征分布差异,但是可能会导致负迁移的问题。此外,仅仅考虑了单一目标域的自适应场景,限制了模型的适用范围。文
数字化时代的到来引领了三维模型的发展,人们对三维模型的研究不断深入,三维模型的应用也越发广泛。其中,以线形方式表示的三维模型抽象地描述了物体的形状或结构特征,在计算机中不仅存储方便,而且易于交互。在此背景下,本文围绕三维模型的线形表达方式,以原子模型和线框模型为研究对象,调研分析了原子模型在建模和渲染、线框模型提取方面的相关工作,对于原子模型的建模和渲染、线框模型的提取过程中存在的问题进行了研究,
在如今信息技术的快速发展中,物联网技术被不断地普及,人机交互是当前领域的一个热门方向。与此同时,人们的工作生活中,久坐行为已经成为一个普遍存在的现象,但是人们对于久坐行为对身体带来的健康风险却知之甚少。本文将创新性地提供两种使用Wi-Fi信道状态信息进行久坐行为识别的系统方案,使用机器学习模型以及并行长短时记忆(Long Short-Term Memory,LSTM)神经网络和卷积神经网络(Con
区块链对计算和存储资源的高需求严重限制了区块链的发展。特别的,在包括物联网在内的资源有限的环境中,区块链难以实现大规模应用。将复杂的区块链计算任务从物联网终端用户卸载到边缘或云是缓解终端用户计算压力的有效解决方案。云/边缘向物联网终端用户提供付费计算资源,物联网终端用户得以执行区块链计算任务而获益。因此,合理的云/边缘计算资源分配与定价对云/边缘和物联网终端用户的收益至关重要。应用纠删码技术是减少