基于编解码结构的视频内容理解算法研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:shunbe123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于卷积神经网络在图片特征提取领域的杰出表现与自然语言处理算法的长足发展,以图像为信息载体的内容理解任务取得了令人瞩目的成就。然而单张图片所蕴含的信息相对静态且具有特征模态局限性,人们逐渐把研究重心转向视频这一信息量更大,时序性更强的信息载体当中,并以此为基础衍生出了视频内容理解相关的计算机视觉分支研究方向。本文以密集事件视频内容理解为研究内容,针对现有算法无法高效检测视频中多个事件且模态特征过于单一的问题,提出了新的多模态特征提取和融合算法,从而对整个视频进行更好的结构化表达,同时通过候选提案生成和筛选网络将视频划分为简洁的事件序列。此外,本文还针对现有方法生成的描述语句之间关联性差,逻辑性不强的问题,设计出了三栈式编解码网络,有效地提升了模型的准确性和表达能力。基于以上改进,形成了能够有效检测密集事件视频的内容理解模型,并在业界主流数据集上实验证明了本模型的优越和可行之处。本文的主要工作如下:1)针对多模态特征提取与融合,提出了基于注意力机制的多模态特征提取和融合算法。该算法将视频的二维、三维、音频、语义特征分别进行提取,并采用基于双向LSTM的双线性注意力机制对多模特征进行融合,生成对于视频的结构化向量表达,并通过特征消融实验验证了多模特征的结果有效性。2)针对视频密集事件提取,提出了基于多模融合特征的视频事件提取及视频序列生成网络。该算法通过输入经注意力机制融合的多模特征向量,采用门控循环单元(GRU)生成一系列候选提案并输入到视频序列生成网络中,最终输出低冗余高召回率的有序事件序列。3)针对视频内容描述语句生成,本论文提出了三栈式的编解码模型和全关联的强化学习机制。该模型由三层栈式LSTM构成,前两层分别编码事件主题以及事件关联性语义,并作为第三层内容生成LSTM的输入来辅助单词的生成,通过对每一层LSTM输出结果进行评判奖励,以强化学习的方式辅助模型的训练过程。通过在Activity Net和Charades数据集上实验及分析对比,验证了整体算法模型的有效性,结果显示模型在事件描述准确性、语句逻辑性以及高层次语境表达多样性评估指标上均优于现有主流模型。
其他文献
随着卫星遥感技术的高速发展,低密度奇偶校验(LDPC)编码器必须实时完成各类载荷海量数据的纠错处理,传统串行LDPC编码方式已经不能满足高速处理需求,为此开展了新一代星载高速LDPC编码方案设计。基于CCSDS标准推荐用于低轨卫星通信的7/8码率LDPC,巧妙利用信息bit和生成矩阵扩充方式,设计了一种扩充并行LDPC编码方法,并在V5 FPGA上实现,与现有并行编码方案相比,提高了3%处理速度,
骨整合(osseointegration,OI)已被定义为严格规定的种植体与有序的活骨,在结构和功能上的直接结合,使种植体与不断改建的骨组织之间形成共生状态。这一概念自上个世纪50年代Branemark教授提出以来,随着研究和认识的不断深入,已被骨科学家、口腔学家及医用生物材料学家广为接受,并由此诞生了诸如生物材料、牙齿种植、骨整合假肢矫形等新型学科或新兴研究领域。近年来人们将钛种植体植入截肢患者
学位
随着多媒体技术和网络通信技术的不断发展,如何高效的进行短视频智能分析与管理成为亟需解决的问题。视频描述作为智能视频分析领域中的高层问题,不仅要对视频的内容信息进行分析处理,还需要使用自然语言处理技术生成可读性文本。视频描述具有着广泛的应用场景,比如人机交互,帮助有视力障碍的人,协助海量视频数据分类和检索等。目前大部分的视频描述都基于英文语句,本文选择在中文这样一个更具挑战性的语言环境中进行视频描述
氢能是一种清洁、高效、安全的可持续的绿色能源。电解水制氢将成为未来氢能源的核心技术,具有很大的应用发展前景。析氧催化电极作为电解水制氢的关键材料,是影响其研究发展的重要因素之一。镍基化合物作为析氧催化电极,具有资源丰富、价格低廉、析氧过电位低的特性,在碱性电解水中有着极大的应用研究价值。本文对镍基化合物析氧催化电极的研究现状进行了综述,并指出了析氧电极的研究发展方向。
近年来,我国护患纠纷的发生率在不断的提升,护患纠纷对医疗秩序、医患关系、医院的正常运行产生了很大的不良影响。护患纠纷的数量、规模和恶劣程度都在不断的升级,患者与护士之间本来的信任关系也经受着严重的考验。同时对患者和护士都带来了不小的创伤,护士在护患纠纷中出现的心理应激也成为一种常态,本文针对此进行研究,从而提出缓解心理应激的对策。
学位
<正>山西省大同市考古研究所9月21日对外发布,此前,大同市考古研究所对一个北魏墓群进行考古发掘,位于墓群中部的M113出土陶俑群。这为研究北魏平城时期丧葬文化、民族服饰等提供了新材料。其中,女乐俑服饰反映出民族融合特征。大同市考古研究所相关负责人古顺芳介绍,M113是一座长斜坡墓道的偏室土洞墓,坐北朝南,
期刊
放射性肺损伤(radiation-induced lung injury, RILI)是发生于胸部的恶性肿瘤进行放射治疗后出现的常见并发症之一,包括早期出现的放射性肺炎(radiation-induced pneumonitis, RIP)和晚期的放射性肺纤维化(radiation-induced pulmonary fibrosis, RIPF),严重影响患者的生命健康及生活质量,预后不佳。研究
新能源发电制氢技术不断成熟,制氢成本直接影响到氢能产业商业化推广与应用。针对电解水制氢技术方案投入与运营成本的变化,基于新能源产业风光发电成本视角构建了由碱性(ALK)电解槽+风电、质子交换膜(PEM)电解槽+风电、碱性(ALK)电解槽+光伏发电、质子交换膜(PEM)电解槽+光伏发电四种电解水制氢组合方案的成本动态测算模型,并通过敏感性分析研究了相关因素对制氢成本的影响。结果表明:四组方案制氢成本