针对目标的视频文字描述

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lukexingmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的成功,人工智能领域取得了革命性的进步,各领域的研究发展迅速,其中计算机视觉与自然语言处理结合领域的研究同样受到了学者们广泛的关注。视频文字描述生成就是一项结合了计算机视觉与自然语言处理的任务,它不仅要求算法模型能够很好地提取出视频中的有用信息,还需要模型能够将这些信息有效地组合起来,准确地建立与自然语言信息的相关匹配。首先本文为了建立高性能的视频文字描述算法,提出了先对视频帧建立场景图然后利用图卷积进行特征编码的方式。在建立场景图时,先利用Faster R-cnn目标检测算法检测出视频帧中各目标的位置以及类别信息;然后利用这些检测信息建立简单的全连接模型对目标的实体属性信息进行检测;随后建立关系检测模型对各个目标之间的关联进行检测,其中为了降低稀疏的目标关联造成的检测开销过大问题,本文提出了一种基于自注意力的剪枝模型。利用所有的检测信息可以构建包含有目标节点、目标属性节点、目标关联节点的场景图。这样的场景图能够包含视频帧中几乎所有的语义信息,然后通过图卷积网络来对场景图进行编码。然后在利用图卷积对视频帧进行编码时,本文通过embedding精简了以上场景图结构,使场景图只包含有目标节点,目标关联通过有向边来表示;然后本文对图卷积进行了改进,使之能够应用于有向图中,并且将乘性注意力机制添加进了图卷积中,使得图卷积中各节点能够更好的权衡与邻居节点的关系。通过这样的视频帧编码方式,能够使得特征能够细化到图像中的各个目标,并且包含各个目标的相互关联,相比传统的对视频帧利用卷积网络提取的整体特征更加鲁棒。随后为了学习到视频帧之间以及视频文字描述序列之间的长时间步依赖关系,本文使用Transformer来代替传统的循环神经网络,提高了模型的序列特征学习能力以及训练效率。最后的实验结果表明,本文所构建的算法能够生成更贴近视频目标的文字描述,在MSR-VTT数据集上取得了不错的成绩。
其他文献
计算机现在在人们的日常生活和工作中扮演着越来越重要的角色,计算机安全问题也受到重视.计算机硬件在计算机的整体安全性中起着重要的作用.该文基于网络环境下计算机硬件安
建立以TOE模型为基础的中国建筑业信息化现状测评体系,通过调查问卷收集数据并使用模糊综合评价法进行数据分析,客观评价我国建筑业信息化的发展现状,并从技术、组织、行业三
<正>我所工作的单位是中油资产管理公司和昆仑信托,这是两个牌照,但实际上是一个企业。中油资产管理公司是中石油直属的二级单位,同时也是中石油集团的资产处置平台。昆仑信
对宝铜厂区大气颗粒物浓度及PM2.5中元素浓度进行连续在线监测,以重金属元素为污染物示踪因子进行污染源溯源分析,通过主成分分析及各元素组分与污染玫瑰图结合的研究方法,解析污
近年来,我国群体性劳动争议快速增加,但我国目前还没有建立系统的群体性劳动争议处理机制。因此,在我国上位法对群体性劳动争议处理制度缺失的情况下,构建符合上海实际的群体
随着现代科技技术的逐渐地发展,信息技术融入了许多人的生活。我们已进入了信息时代,计算机产业在这样的背景下正在快速发展着,也不可避免地也出现了一些问题。从业者慢慢注
四、政策主张的分歧 (一)政策目标分歧 理论内容的分歧导致了两个剑桥派在政策主张上也展开了论争。由于新剑桥学派的政策观点比较简单粗略,而新古典综合派的政策观点比较系
目的:通过制作大鼠全脑缺血模型,比较再灌注后不同时间给予纯氧对脑损伤的影响,从而探索脑缺血再灌注后给予高浓度氧的安全时间范围。方法:健康SD雄性大鼠48只随机分成6组:假手术
<正>2016年全国两会政府工作报告中指出,重拳治理大气雾霾,提高清洁能源比重。我国地热资源丰富,在有条件的地区充分利用地热发电和供暖,可显著改善能源结构,有效缓解冬季雾
会议
大体积混凝土结构的温控防裂技术一直是许多学者研究的重点,随着水利信息化在工程施工中的应用,积累了海量的施工信息数据,为大坝温控提供了新的思路。整理坝体施工期的温控