基于深度学习的视频时序动作提案生成方法研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:yjn511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着科技的进步以及互联网的普及,人们正处于一个信息爆炸的网络时代。网络上各式各样视频的增多,使得人们对于视频内容理解的需求也越来越多。而面对海量且复杂的视频,如何高效、快速且准确地分析视频,成为目前研究人员的研究重点。鉴于深度学习技术在图像处理领域取得的优越性能,研究人员将其引入视频处理领域,由此产生了大量研究课题,如视频动作识别、视频时序动作检测、视频摘要与视频浓缩等。视频时序动作检测是视频动作处理领域的一个重要分支,其目标在于对冗长而复杂视频中的动作实例进行动作类别及时序边界的判断。尽管目前对于视频运动分析方面的研究已经较为深入,但视频时序动作检测任务的性能仍不尽如人意,这是因为其难以准确判断视频中动作的开始以及结束时间。基于此,研究人员逐渐将目光转向视频时序动作提案生成任务,该任务的目的是判断冗长而复杂的视频中各个动作实例的开始和结束时序边界。本文针对视频时序动作提案生成任务展开研究,以深度学习技术为基础,提出了一种动作分数优化模型(Actionness Score Optimization Model,ASOM)用于生成高质量的视频时序候选提案。该模型生成的候选提案能够准确地对视频中的动作实例进行时域定位,且具有灵活的持续长度。本文具体工作如下:(1)该模型首先利用卷积神经网络进行视频特征的提取,然后将提取的特征输入到反卷积层进行特征图上采样,从而增强特征图分辨率,使得模型对视频内的短期动作更加敏感;(2)使用双向门控循环单元提取视频的上下文时序信息,并通过注意力机制提取视频的关键信息,使得模型能够有效地对视频中的长期依赖进行建模并聚焦重要信息,从而获得精确的视频片段级别动作分数,并通过对动作分数进行动态组合得到高质量的时序候选提案;(3)通过消融实验,验证了ASOM模型中所引入的双向门控循环单元、注意力机制以及反卷积层的合理性和有效性,并在两个基准数据集Activity Net数据集以及THUMOS14数据集上对所提出的ASOM模型进行了大量的实验,实验结果验证了其在生成高质量时序动作候选提案方面的有效性。同时,在THUMOS14数据集上通过实验验证了该模型生成的候选提案能够提升视频时序动作检测任务的性能。
其他文献
我国残疾总人口数约为8502万,约占中国总人口数的6.21%,让广大残疾人安居乐业、衣食无忧,过上幸福美好的生活,是我们党为人民服务宗旨的重要体现,也是我国社会主义制度的必然要求。但残疾人作为社会的弱势群体,社会大众在评价和接触残疾人时往往带有歧视和偏见等消极色彩,这些刻板印象给残疾人带来了社会适应和应急困难等各种问题。媒体作为社会舆论的引导者和主流价值观的传达者,在形成残疾人相关议题的过程中发挥
学位
在五四运动反传统与文化重构双重使命征召下,社会迎来了一系列重大变革。其中妇女运动的理论与实践对传统的性别观念产生了强烈的冲击。在妇女解放的思潮下,女性在身体与人格上得到了一定程度的自由,“新女性”就此诞生。自由的文化氛围与繁荣的出版业滋生了一大批以写作为生职业作家。20世纪20-30年代的中国,战争的动荡与时局的混乱让蓬勃发展的出版业受到打击,由文人集团构建成的出版圈开始图存求变。象征着自我与变革
学位
随着经济的高速发展,我国金融市场不断扩大,社会对金融投资的关注愈发升温。其中,股票作为炙手可热的项目,具有高风险高收入的性质,吸引着大量投资者。然而,股票的波动受到新闻要事、国家政策等众多因素的影响,蕴含着复杂的非线性关系。为了更加准确的分析股票市场并通过投资获利,股票的预测成为当前研究热点。深度神经网络和注意力机制能够很好的描述非线性数据,适合股票价格的预测。因此,本文引入注意力机制和深度神经网
学位
本文基于协同理论、媒介进化理论、创新理论的多维视角,以智能媒体为研究对象,选取封面新闻为研究个案,探究智能媒体技术与制度协同创新的过程、效应以及面临的困境与对策,探析智能媒体技术与制度协同创新对传媒业的变革。本文研究内容与成果如下:第一,分析智能媒体两大影响因素,认为技术创新是智能媒体发展的动力,制度创新是智能媒体发展的保障;总结封面新闻的技术创新成果与制度创新举措。第二,研究智能媒体技术与制度协
学位
近年来,自杀在中国已成为一个日益严重的社会和精神健康问题,据统计,全球大约每年有42%的自杀死亡发生在中国,中国每年约有28万人死于自杀,约有200万人自杀未遂,其中大部分为15岁到34岁的青壮年,自杀已成为中国人口的第五大死因。自杀事件因其具有反常性、猎奇性和显著性,时常成为媒体新闻报道的重要选材。大众传媒时期,已有学者对自杀报道进行过相关研究,而本文关注的焦点是:传媒如何在网络环境下呈现自杀事
学位
现代社会中,电能是人类不可或缺的动力源之一。为了人们可以安全、系统地用电,变电站供电必须要稳定、可靠,而直流供电作为变电站供电系统的保障,它的运作也必须要正常、稳妥。作为直流供电系统的核心,充放电模块的性能影响着蓄电池组的使用时长以及整个系统的好坏,因此它是本文研究的重点。当下,传统移相PWM软开关技术的全桥变换器利用其优良的性能和较低的开关损耗在直流电源的充放电模块被广泛应用,然而,传统移相全桥
学位
近年来,随着人工智能的兴起,计算机视觉开始被越来越多的人所重视,包括深度学习等技术被广泛应用于计算机视觉算法研究中。光流由于其独特性,能获得图像序列中运动目标的速度场,成为了计算机视觉研究中的一个重要方向。在过去的四十年间,随着光流算法的不断改进与完善,光流计算在精度上得到了较大的提升。然而在真实生活场景中,由于光照变化不均匀等复杂因素的影响,光流计算仍然面临着巨大挑战。为了提高在含光照变化的视频
学位
生活剧团在美国先锋戏剧史和文化政治史上被看作20世纪60年代的精髓,他们典型风格的形成得益于残酷剧论的启示。剧团与残酷剧论的相遇发生在20世纪50、60年代之交,正值欧美二战后社会转型和伦理重建活动的转折期,戏剧革新与文化运动均提出治疗个人与社会文化的诉求,而蓬勃发展的精神分析方法为这些诉求提供了丰富却歧义丛生的语汇。精神分析话语影响了生活剧团理解和诠释残酷剧论的方式,激励他们发展出两种感性革命的
期刊
随着移动通信技术的飞速发展,人们对无线通信质量提出了更高的要求。然而,目前无线通信信道里存在多径衰落、噪声干扰等问题,影响了数据传输速率和通信吞吐量。分集技术具有减缓多径衰落,提高无线通信的质量和可靠性等优点,能够有效提高通信系统的传输性能。因此,将分集天线应用于无线通信终端可以解决上述问题。同时,介质谐振器天线(Dielectric Resonator Antenna,DRA)由于其具有结构设计
学位
乳腺癌作为当代女性群体最常见的几种癌症类型之一,对女性群体的生命健康有着致命威胁。通过对乳腺进行早期筛查可以有效地降低乳腺疾病的危害,在多个国家得到广泛推行,其中,超声筛查是目前乳腺肿瘤筛查的首用手段。在乳腺检查过程中,医生通过超声影像特征对患者乳腺进行分析与判断,然而,诊断结果的准确性依赖于医生的主观判断。计算机辅助诊断系统在影像检查中的发展证实了乳腺辅助诊断系统可以有效帮助放射科医生提高对乳腺
学位