基于特征融合与注意力机制的视频描述方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lhaho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和多媒体技术的飞速发展,视频数据出现了爆炸式增长,在海量的多媒体数据中占据了重要地位。给定一段视频,大多数人都可以轻松地从中获取很多信息并对其内容进行不同程度的解释和描述。然而,对于机器而言,从视频中提取信息并生成语句描述是非常具有挑战性的。近年来,随着深度学习热潮的掀起,视频描述这一任务在语言和视觉研究领域吸引了越来越多专家和学者的关注。尽管视频描述方法的研究已经取得了显著的进展,但是由于视频固有的多模态属性以及不同模态之间存在的语义鸿沟,这一任务仍面临着许多挑战:(1)为了生成准确、全面的自然描述语句,视频的外观、动作、声音等特征都十分重要。然而,大多数现有的方法只是简单地对不同模态的特征进行级联操作,忽略了它们之间的相互关系。(2)视频的视觉特征空间与语义嵌入空间之间存在着巨大的语义鸿沟,使得它们之间的相关性和兼容性难以探索,这让视频描述任务变得更加艰巨。(3)大多数方法仅仅考虑视频的视觉和文本模态,而忽略了声音模态,导致模型对声音有关场景比较敏感。考虑到上述问题,本文提出了基于显式视觉特征融合与语义嵌入指导注意力机制、基于显式视觉-声音特征融合与语义嵌入指导注意力机制的两种视频描述模型。其中,显式视觉特征融合和显式视觉-声音特征融合可以统称为显式特征融合。首先,本文设计了一个显式视觉特征融合模块,捕捉视频中多个视觉模态的特征维度之间的两两交互关系,并以一种显式的方式来融合这些不同模态的视觉特征。其次,本文提出了一种新颖的注意力机制——语义嵌入指导的注意力机制,与传统的时间注意力机制结合组成协作注意力模块,负责生成联合注意力图。具体而言,在每个解码阶段,语义嵌入指导的注意力机制利用语义单词嵌入信息来引导模型更多地关注当前时刻最相关的视觉特征。这样,视觉空间和语义空间之间的语义鸿沟在一定程度上得到了缓解。此外,在上述基础上,本文进一步提出了第二种视频描述模型,它能够有效地提取和利用声音上下文。具体而言,该方法通过显式视觉-声音特征融合模块,对视觉上下文和声音上下文进行显式的融合,以更好地探索视觉与声音模态之间的交互关系。为了对提出的模型进行评估与验证,本文在两个广泛使用的基准数据集(MSVD和MSR-VTT)上进行了大量的对比实验和消融实验。面向视频描述问题,本文的主要贡献总结如下:(1)提出了一种显式特征融合方法,包括显式视觉特征融合和显式视觉-声音特征融合,来建模不同模态特征之间的成对交互,并以一种显式的方式将它们融合为一个单一的特征向量。(2)提出了一种新颖的注意力机制——语义嵌入指导的注意力机制,该机制利用语义单词嵌入信息计算注意力权重,并与时间注意力机制相互协作,生成更有意义的联合注意力图。(3)在MSVD和MSR-VTT数据集上的对比实验表明了本文提出的模型达到了比较先进的结果;与此同时,大量的消融实验验证了本文提出的上述机制(即显式特征融合和语义嵌入指导的注意力机制)的有效性。
其他文献
目前,化学防治仍是果园病虫害防治的主要技术手段,传统的大容量连续式喷雾,无视靶标及个体差异,造成果树空隙间的无效喷药及靶标内农药沉积严重,导致农药的大量流失、浪费、残余及环境的污染,影响果品品质。针对上述问题,对果园变量喷雾关键技术进行了研究,以提高农药利用率,实现农药减量增效,提高果品品质。主要研究内容如下:(1)设计了果园变量喷雾试验台,主要由变量喷雾系统、风送系统及控制系统等组成。对关键部件
学位
我国是世界上公认蚕桑的起源国和传播国。蚕茧是我国的国计民生的重要组成部分,在多个领域内具有广泛的应用。桑蚕产业是我国的传统产业,具有巨大且相对十分完备的生产体系。制种是蚕业生产的基础,也是蚕茧丰收的保证。在制种生产过程中,切削蚕茧对蚕蛹进行检测可以减少病原物通过蚕蛹相互接触交叉感染,减少蛹的死亡,提高制种效益。目前蚕茧切削工作主要依靠手工操作来完成。切削蚕茧不仅劳动强度大、工作效率低,还经常在切削
学位
我国蚕丝业历史悠久,是世界上最大的茧丝绸生产国和出口国。据统计,2016年全国有近800万农民从事栽桑养蚕,年产茧量约80万吨,占世界总产量的75%以上。但我国蚕桑产业机械化水平低、蚕桑生产技术研究落后,致使我国蚕桑产业大而不强。解决这些问题的根本出路就是实现蚕桑产业机械化,用先进的科学技术去引导蚕桑产业升级。蚕桑产业机械化可以有效提高生产效率,降低生产成本,增加经济效益。采茧是蚕桑产业中重要的环
学位
从我国当前粮食仓储技术发展实际出发,发现粮食仓储技术日益向智能化、绿色化、优质化方向发展。尤其是在“碳中和”发展的背景下,绿色储粮技术的发展对于促进粮食仓储技术发展,保障粮食安全具有重要意义。本文在系统介绍绿色储粮技术特点、要求的基础上,结合当前我国绿色储粮技术发展的现状,针对性地提出了绿色储粮技术的优化举措,以期为促进我国绿色仓储技术发展,促进粮食仓储绿色生态化提供经验借鉴。
期刊
<正>随着自动识别与数据采集行业的持续发展和商业应用的成熟,我国自动识别与数据采集行业的应用领域不断扩大,特别是在经济全球化趋势的背景下,自动识别技术被广泛应用于物流信息化、企业供应链和社会信息化管理等快速发展的众多领域,为我国整体信息化建设水平的提高、产品质量追溯等发挥了重要作用。
期刊
玉米作为我国三大粮食作物之一,种植面积大,秸秆资源丰富,但秸秆资源在利用过程中存在还田量过大,饲料采食率低等问题,需要对秸秆分段利用,即上部玉米秸秆粉碎收集,下部玉米秸秆粉碎还田。这种秸秆综合利用模式的关键是将秸秆切碎,对玉米秸秆分段切碎的关键部件进行研究。研究内容如下:(1)秸秆机械化利用现状的探究。秸秆还田量过大会造成下季作物的烧苗等问题,秸秆的粉碎效果差使得下季作物种子无法扎根,根据国内外玉
学位
我国蚕桑行业具有悠久的发展历史,特别是在“一带一路”战略提出的背景下,我国的蚕桑行业迎来了新的发展机遇。但是,我国蚕桑行业目前面临的困境是机械化水平低,劳动力价格不断增加。因此,降低劳动强度,提高劳动工效对我国现代蚕桑产业的发展具有重要意义。在对嫁接桑栽培模式的调研和阅读相关参考文献的基础下,进行了嫁接桑桑条剪切试验,仿真了圆盘锯切割桑条的过程,设计了一种自走式嫁接桑收获机。该机既可以实现嫁接桑的
学位
表情信息能传达出一个人的情绪状态、行动意图,是日常交流的主要方式。随着人工智能以及大数据时代的来临,人脸表情识别成为模式识别、机器视觉等领域的热点研究课题。人脸表情是人类彼此交流沟通的一种独特方式,赋予机器人感知面部表情的能力是实现智能人机交互的关键技术之一。随着GPU、存储器等计算机软硬件技术的发展,使人脸表情识别技术应用更加广泛,但这也对人脸表情识别技术提出了更高的要求。传统的人脸表情识别方法
学位
神经网络相关的研究是计算机研究领域的热点问题,分析这一领域的发展脉络,我们不难发现神经网络模型的计算量在不断地攀升。随着移动计算设备的发展,神经网络的推理正在越来越多的发生在边缘计算的场景中,但是网络层数越来越深的模型依然对嵌入式计算设备的功耗和任务地实时性提出了严峻的挑战。在这种背景下,神经网络加速器相关的研究在快速地推进,基于FPGA的加速器相比于传统的GPU具有更好的能效比。得益于FPGA的
学位
背景:胃癌的发病率和死亡率在我国恶性肿瘤排名中均位于前列,胃癌最有效且越来越普及的治疗方式是腹腔镜胃癌根治术。加速康复外科(Enhanced Recovery After Surgery,ERAS)作为现代外科的一个重要发展方向,强调对择期手术患者术前的预防性抗凝,以及术后继续不间断预防血栓的形成。另外,ERAS的核心内容之一是最大化的减少应激,减少应激有利于间接性地预防术后血栓的形成。腹腔镜胃癌
学位