【摘 要】
:
随着深度学习的发展,人工智能对人类社会生活带来了很大的便利。视频文本描述作为视频内容分析的重要分支,推动着视频检索与视频个性化推荐的进一步发展。视频文本描述算法需要对视频中包含的视觉内容使用自然语言进行文本描述,且要求该描述语句具有准确性、可读性与流畅性。目前在基于编解码模型的视频文本描述算法的研究中,将视频高级语义信息作为视频语义特征,能够有效地辅助解码模型更准确的将视频视觉特征转化为文本描述。
论文部分内容阅读
随着深度学习的发展,人工智能对人类社会生活带来了很大的便利。视频文本描述作为视频内容分析的重要分支,推动着视频检索与视频个性化推荐的进一步发展。视频文本描述算法需要对视频中包含的视觉内容使用自然语言进行文本描述,且要求该描述语句具有准确性、可读性与流畅性。目前在基于编解码模型的视频文本描述算法的研究中,将视频高级语义信息作为视频语义特征,能够有效地辅助解码模型更准确的将视频视觉特征转化为文本描述。其中,视频语义特征的质量对解码模型生成文本描述的准确性有着重要的影响。因此,在编码阶段,针对现有视频语义检测器提取的视频语义特征准确性较低的问题,本文构建视频语义特征增强编码器模型,通过highway layer结构加强编码特征,并且加入视频语义单词差异放大模块,放大语义特征中各语义单词之间的差异性,提高视频语义特征的准确性。实验结果表明,本文提出算法生成的语义特征的质量更好,能够更有效地辅助解码模型提升生成文本描述的准确性。为了进一步提高解码模型生成文本描述的准确性,在解码阶段,针对解码模型在学习过程中不能给予表达视频内容重要的单词更多关注度,并且单词特征之间差异性较小的问题,本文将单词注意力机制与单词差异增强结构相结合,构建单词特征增强文本解码器模型,使得单词特征同时具有重要性和差异性,提升解码模型的性能。通过在标准数据集上进行对比实验,实验表明本文算法生成的文本描述与视频内容更加贴切,生成的文本描述不仅准确,还能反映视频中的细节内容。同时与同领域其他算法相比,本文算法生成文本描述的评价指标明显优于同类研究的其他算法。
其他文献
随着人工智能的日益发展壮大,很多室外视觉系统也在逐步进步并且发展,因此实时的天气状况也影响着基于图像数据的室外监控、天气预测、灾害预警、自动驾驶以及场景理解等领域,使计算机通过图像更加拟人化、智能化的进行天气分类已成为计算机视觉领域备受瞩目的研究课题之一。基于此,本文使用深度学习网络,从基本天气类型分类以及恶劣天气细粒度分类两个方向出发,构建了相关的分类预测模型,使得计算机能够通过数据驱动的自动学
高速运动物体具有速度快、运动非线性等特点,对于高速运动物体的跟踪具有广泛的应用场景,如生物医学、能源化工、军事目标检测与拦截等。虽然目前众多学者在高速运动物体跟踪领域的研究取得了一定成果。Camshift是Meanshift的改进算法,解决了跟踪框无法变化的问题,同时利用HSV代替RGB,一定程度的解决了光线干扰的问题。但是对于高速运动物体的跟踪,使用Camshift算法会遇到两个问题,一是Cam
随着电子信息技术的发展,集成电路芯片被广泛应用于军事和民生等领域,对国家和社会安全发挥着重要的作用。集成电路设计与生产相互分离、各模块设计相互独立的产业模式,使得芯片不可避免地存在硬件安全隐患。硬件木马是指在芯片设计或制造过程中对电路进行有意的修改或植入的结构,导致电路出现恶意的行为。硬件木马的危害巨大,因此研究硬件木马检测技术可以保证芯片安全,对国家和社会安全具有重要的意义。本文首先基于AES加
随着人工智能的发展,基于深度学习的众多领域不再过分依赖于大量数据,其能够利用以往的经验针对新的问题从少量的样本中进行有效的学习。在现实中,人们也将必然面临更多数据不足的问题,因此如何让机器像人类一样能够通过已有的学习经验快速从少量标签样本中进行有效学习实现分类,成为一个重要的研究方向。在近几年,小样本的分类算法层出不穷,从迁移网络、度量空间以及数据增强等方向的研究都有了很多突破性的进展。但是,基于
近年来,随着智慧城市的不断建设,目标跟踪越发重要。视觉目标跟踪需要在视频序列的每一帧实现对目标的定位与跟踪。复杂环境及目标自身变化等问题是目标跟踪技术面临的困难。因此,视觉目标跟踪领域的重点任务就是研究具有较高精确度与稳定性与目标跟踪算法。相关滤波类跟踪算法由于兼具高速与高精确度,受到了学者们的广泛关注和研究。然而,现有相关滤波类跟踪算法仍存在以下问题:一是边界效应会使训练样本对目标表示偏离真实,
随着无人机技术的发展,无人机拍摄在航空摄影,地形测绘,军事侦察等方面具有广泛的应用前景。本文主要研究无人机俯拍视频中的目标识别问题,分析现有的运动目标识别方法,提出融合目标跟踪与图像识别的运动目标识别方法。以无人机俯拍视频中的运动目标作为研究对象,进行跟踪标定及分类识别。针对识别方法的实时性问题,提出基于数据去冗余的改进方法,通过仿真实验验证基于视频流的无人机目标识别方法。本文主要研究内容如下:(
图像质量评价在数字图像处理技术中占据着重要地位,分为主观图像质量评价和客观图像质量评价两种。主观图像质量评价需要消耗大量的人力,且无法嵌入到实时应用的系统中去,因此需要研究能够适用于多种场合的客观图像质量评价方法。客观图像质量评价方法分为全参考、部分参考和无参考三种。在多数情况下,参考图像难以获得,因此无参考图像质量评价方法具有更广泛的应用场景。无参考图像质量评价算法BRISQUE(Blind/R
数字图像是大数据时代人类感知与传播信息的重要载体,在数字图像产生与保存的过程中会引入不同程度的噪声,图像质量差会对信息的获取产生很大的影响,使得后续对于图像的处理存在极大的不确定性,阻碍图像处理技术的发展。图像技术在多领域的普遍应用,使得数字图像质量增强技术的研究已经成为图像处理方面十分具有现实意义的内容,图像去噪作为进行图像研究的预处理问题,具有十分深远的意义。图像去噪判别模型由于其良好的去噪性
受到传感器成像机理与材料工艺的限制,由传感器采集到的单一类型图像数据难以全面、准确、清晰地描述场景中的信息。多源成像传感器可提供同一场景下类型不同的图像数据。多源图像融合技术的目的是尽最大可能提取来自多源信道图像数据的互补信息,生成包含更多场景信息的融合图像。现阶段,多源图像融合技术在数码摄像、视频监控、医疗诊断和遥感目标检测等领域得到了广泛应用。本文针对多聚焦图像融合和红外与可见光图像融合中信息