基于联合层次化注意力机制的视频描述生成

来源 :厦门大学 | 被引量 : 0次 | 上传用户:luzhenning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度神经网络在视频内容理解与分析任务上取得卓越的效果,基于深度学习的自动视频描述已经广泛的部署在现实应用中。视频自动描述的主要挑战是从大量的帧中捕获关键视觉信息,比如物体、动作和时空关系,并用语法正确的句子进行整体的描述。现有的视频描述方法大多集中于利用注意力机制,捕获全局视频中的关键帧或帧中的关键区域来对视频的语义信息进行建模,而忽略了视频本身的层次结构。视频内在的这种由粗粒度到细粒度的层次性,使得我们需要一种层次化的方式来捕获视频的关键信息,增强不同特征之间的交互,从而生成更准确也更全面的视频描述。针对当前视频描述生成中存在的问题,本文提出基于联合层次化注意力机制的视频描述生成,以解决这些问题。本文主要创新点有:1)本文通过层次化的方式对视频片段特征、视频帧特征和局部物体特征进行特征嵌入,并提出了一种新颖的端到端可训练的视频自动描述模型来层次化地选择关键视频片段和关键空间区域。用于模型输入的视觉语义层级由高到低,通过注意力机制获取全局信息同时也能捕获物体、场景等细粒度高的视觉信息,这样的层次化方式既增加了视觉语义的丰富性,同时也提升了描述生成的准确率。2)本文设计了结合序列到关键帧和关键帧到关键区域的注意力模型,并提出了一种基于概率的可微分采样器对关键帧与关键区域进行采样。这样的采样方式在训练过程中既连接了两个注意力模型的梯度,同时也起到了数据增强的作用,极大地增强了模型的鲁棒性与泛化能力。本文在多个相关的视频描述生成数据集上进行了实验,通过与当前主流方法的比较,验证了本文提出的方法在描述生成性能上优于主流方法。
其他文献
自法拉第发现磁光效应以来,磁光器件的应用已经成为光通讯以及集成光路等领域中不可或缺的一部分。磁光材料作为磁光器件中的核心,对器件的性能起决定性作用。而磁光材料中的磁光晶体由于其高透过率,优异的磁光性能,高温稳定性,在各类磁光器件的制作上占据了最为重要的地位。基于此本文研究了广泛应用于磁光器件中的铽镓石榴石(TGG)晶体,以及下一代高级替代物,热门磁光晶体铽钪铝石榴石(TSAG)晶体的制备。主要包括
学位
<正>设计意图中国神州载人飞船成功发射,中国空间站的“天宫课堂”,都引发了大班孩子对中国运载火箭及载人飞船的兴趣。前期我们在班级开展了关于中国运载火箭的相关活动,在此基础上,我设计了“造火箭”活动,借助情境引入,让幼儿寻找制作材料、安装火箭零件,最终共同完成模拟火箭的发射任务,在此过程中感知和理解行与列,并通过层层的学习与挑战,不断激发幼儿参与活动的兴趣,培养幼儿认真专注、不怕困难等良好的学习品质
期刊
用于天文高分辨光谱波长定标的法布里-珀罗标准具(FPE)具有宽波长覆盖与密集透过峰序列的光谱,有望实现比传统定标源更高的波长定标精度。然而FPE透过峰波长是未知的,这为定标带来了挑战。本研究在不借助额外精密测量设备(如傅里叶变换光谱仪)情况下,使用天文高分辨光谱仪常规定标源钍氩灯(ThAr)为FPE提供波长信息,再利用FPE密集的透过峰序列以及电介质反射膜穿透深度与波长关系的平滑性质,修正波长信息
期刊
本论文包含两部分的工作,第一部分是N-芳基仲酰胺与异腈酸酯成环反应合成2,3-二取代喹唑啉-4-酮的方法学研究(第二章),第二部分是四氢异喹啉生物碱(-)-quinocarcin的不对称全合成探索(第三章)。一、N-芳基仲酰胺与异腈酸酯成环反应合成2,3-二取代喹唑啉-4-酮的方法学研究(第二章)发展了以Tf2O/2-Br-Py体系为基础,活化仲酰胺并与异氰酸酯成环反应直接制备2,3-二取代喹唑啉
学位
光谱探测技术在未来智能装备中发挥着视觉检测、理化分析和过程控制等智能识别的作用,广泛应用于食品安全、医学诊断、环境监测、防伪鉴别、植物病害抑制、预警侦察等领域。传统光谱探测系统因受限于分光元件而存在体积大、成本高和定制化能力有限等问题。基于微机电系统(MEMS)技术的法布里-珀罗(FP)滤波芯片为微型化、低成本和定制化的光谱探测系统提供了新的解决途径。近三十年来,针对实用化MEMS-FP滤波芯片的
期刊
主客体化学是二十世纪七十年代由超分子化学衍生出的一门分支学科,经过五十多年的迅速发展,已经成为联系有机化学、生物化学、高分子化学以及新型材料科学的重要纽带,并且在医学、影像学、仿生学等领域有着广阔的应用前景。基于主体、客体之间的主客体组装,客体分子的选择多为平面的多环芳烃,而巴基碗并不是一类常见的客体分子。巴基碗作为富勒烯的片段分子,是一类碗形的芳香烃化合物,主要分为心环烯(Corannulene
学位
立体视觉对象的表示与识别在工业制造与智能交通中扮演着重要的角色,因此吸引了学术界的广泛关注。立体视觉对象常见的表示形式有:点云、视图、体素、网格等。对于立体视觉对象,不同的表示形式有着完全不同的数据组织结构,因此使得立体视觉对象的学习任务难度大增。特别是在多模态的联合表示学习上,不仅要解决单一模态的学习问题,还要提出合适的框架去融合不同模态的数据表示,从而达到对立体视觉对象更加精准的多模态联合刻画
学位
谣言的广泛传播对社会的危害性极大,轻则侵犯公民或社会组织的个体权利,重则造成社会恐慌,摧毁社会信任体系,甚至危害国家安全。很多学者研究了辟谣的相关方法,然而目前的辟谣工作仍然需要大量的人工干预,存在着工作内容繁琐、辟谣时效性滞后等问题。辟谣文本生技术能够极大降低辟谣工作的人工成本和时间成本,是及时抑制谣言传播、有效降低谣言社会危害性的关键技术。然而,目前关于辟谣文本生的方法还鲜有学者研究。辟谣文本
学位
从目前已经发布的政府文件中的有关监管要求归纳分析当下NFT交易平台合规经营的去金融化路径。就本身的属性而言,NFT与FT的核心区别在于它的稀缺性、不可分性。从近期国内政府发布的一系列公告、通知或文件来看,数字藏品的去金融化工作则属于平台是否能存续运营的关隘所在。
会议
作为燃料电池(FC)的关键组件,离子交换膜对于其性能有着至关重要的影响。相较于质子交换膜燃料电池(PEMFC),碱性阴离子燃料电池(AEMFCs)现已展现出诸多优势,然而其主要短板依旧存在于离子交换膜。目前,阴离子交换膜(AEM)研究与商业化生产存在的主要问题包括离子电导率较低、碱稳定性较差、合成成本过高等。当前研究人员普遍认可的提升AEMs碱稳定性的方法有选用碱稳定性较高的离子交换基团,减少膜内
学位