基于粗细粒度融合与关键帧提取的时序动作检测方法

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:guanxming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着4G的普及,移动互联网的快速兴起,海量的视频信息被广泛的应用于现代社会的各个领域。其中识别视频片段中的动作已经成为计算机视觉领域的一大重要挑战。目前虽然对经过修剪的视频片段进行动作识别的方法已经取得了巨大的进展,识别精度显著提升。但是真实场景中,绝大部分视频(如网站视频、电影视频、监控视频等)会包含多个动作片段与大量与动作无关的背景片段,目前对其进行智能化视频分析水平远没有达到应用要求。因此,面向未修剪视频进行动作检测──时序动作检测,成为具有挑战性的新研究热点。相较于传统动作识别,时序动作检测任务更贴近实际场景需求,所以在视频监控、人机交互、安全防范等领域有着广阔的应用前景。因此,对时序动作检测进行研究,具有重要的理论与实际应用价值。时序动作检测包含时序动作提名与动作分类两个任务。本文以未修剪视频为研究对象,针对时序动作检测中,时序动作提名边界定位不准确以及动作分类时冗余度较高等问题,以提升时序动作提名与分类精度为目标,研究视频特征提取与概率生成方法,探索基于粗细粒度融合的时序动作提名与评估方法;设计基于关键帧提取的动作分类方法;最后,综合以上方案,构建基于粗细粒度融合与关键帧提取的时序动作检测模型,从而提高时序动作检测的效果。具体研究内容如下:1)视频特征提取与概率生成方法研究针对视频信息,设计融合卷积GRU的时空双流网络(以下简称时空双流网络)提取视频特征,通过优化时间特征提取网络,增强对视频时序信息的提取;针对BSN模型中TEM结合上下文时序信息较为困难问题,构建动态概率预测网络,并提出了基于动态概率预测网络的概率生成方法,利用概率预测层与加权池化层对视频特征进行迭代处理,达到更好的结合上下文时序信息的目的,获得较准确的时序动作长度。最后,对构建的时空双流网络与动态概率预测网络进行训练,并在标准数据集上设计对比实验,验证了所提出方法的有效性。同时,为后续时序动作提名与分类的研究提供相应信息。2)基于粗细粒度融合的时序动作提名与评估方法研究针对细粒度时序动作提名方法可能精确但不稳定,粗粒度时序动作提名方法稳定却不精确问题,首先利用动态概率预测网络训练得到的边界概率设计了细粒度候选提名方法,然后结合现有的粗粒度提名生成方法,设计了基于粗细粒度融合的提名生成方法,结合两者优点,弥补两者不足,从而得到较高精度的候选提名片段。针对Soft-NMS算法在去冗余时的漏检与重复检测问题,利用目标检测领域中双阈值的思想对其进行优化,设计了基于改进Soft-NMS算法的候选提名评估方法,从而提高提名结果的精度。针对以上研究,在标准数据集上设计了对比实验,结果表明所提出方法的有效性。3)基于关键帧提取的动作分类方法研究针对时序动作检测方法在动作分类任务中冗余计算和分类效率低问题,设计了面向提名片段的关键帧提取方法,利用研究内容1)得到的动作概率对提名片段进行再处理,筛除背景帧,提取关键帧及其视频特征,作为分类器的输入,从而减少冗余计算,提高分类效率。同时,针对目前基于注意力机制的动作分类器只能获取视频单一部分的关键信息的问题,构建了基于多重注意力机制的动作分类器,利用多个注意力单元,提取视频中多个部分的有用信息,从而提高动作分类精度。在上述研究基础上,构建了基于粗细粒度融合与关键帧提取的时序动作检测模型,并在标准数据集上设计对比实验,结果表明所提出的方法能有效提高时序动作检测精度。
其他文献
大力推动数字化转型是建设制造强国的重大战略举措,数字化转型成为企业提升创新绩效的有效途径。基于动态能力视角,以2007—2021年沪、深A股上市公司为研究对象,运用Heckman两阶段模型与文本分析方法,实证检验企业数字化转型对创新绩效的影响及作用机制。实证结果显示:数字化转型显著影响企业的动态能力决策行为,企业的创新绩效也因此得到显著提升。异质性检验结果显示:数字化转型对创新绩效的提升在国有企业
期刊
随着信息技术的发展,监控设备的部署越来越多,为了构建智能安全的监控场景,对大量监控视频进行管理面临更多挑战,因此对监控视频进行智能异常事件检测的研究具有重要的现实意义。面向视频监控的异常事件检测具有一定的挑战性,不同场景中异常类型的多样性和异常定义的无界性,限制了监督学习在视频异常事件检测中的应用。自动编码器作为一种无监督的方法被用于视频异常事件检测中,但自动编码器较强的泛化能力导致正常帧和异常帧
学位
陆空通话是民航空中交通管制员和飞行员之间进行交流的主要载体,对于飞行器的正常起降、紧急情况时地空间的沟通都有着重要的意义。依据统计数据,陆空通话错误引起的飞行安全事故占所有安全事故的41%,对陆空通话进行分析有助于避免出现飞行安全事故。为保障航空安全,缓解陆空通话分析工作中的人工负担,本文针对陆空通话语音特点,探索适用于陆空通话的说话人识别方法,从而为陆空通话的自动化与智能化分析奠定基础。为获得良
学位
行人重识别的优异性能往往依赖于具有准确行人身份标签的大规模数据集,然而在实际场景中,由于数据采集和注释困难,样本会不可避免地被错误标注,这就产生了标签噪声。标签噪声会误导网络的学习,从而导致模型的性能的下降。但是,现有的行人重识别方法很少关注标签噪声给行人重识别带来的负面影响。针对这个问题,本文以消除噪声标签对行人重识别不利影响为目标展开了如下研究:针对现有的行人分类模型不具备抗噪声能力的问题,本
学位
最近十年来,随着深度学习技术的飞速进步,越来越多的研究人员将眼光投入到计算机视觉与自然语言处理相结合的任务中。其中的一个任务:图像描述,即图像生成文本,该任务旨在通过用一句或多句自然语言来描述图像的视觉内容。最近,它已取得了显著的成果,图像描述任务按照生成的文本长度可分为:单句子的图像描述和图像段落描述。单句子的图像描述更强调生成的句子符合图像语义,从图像的整体部分去描述图像的视觉内容;图像段落描
学位
语音通信在日常生活与工作交流中发挥着极为重要的作用,而人们常常处于较为嘈杂的声学环境中,这极度影响了通信质量。同时智能设备提供的语音交互功能大大提升了人们日常生活的便捷性,不过需要确保设备在使用中尽可能接收到干净的语音,以识别出正确的指令。因此,能够降低语音背景噪声、提高语音质量的语音增强技术就显得尤为关键。近年来,基于深度学习的语音增强技术凭借着出色的降噪性能已经成为主流方法。但现实生活中的语音
学位
文本图像二值化是文本分析和识别的重要预处理步骤之一,目的是将文本图像中前景文本与复杂背景分开。而文本图像在存储过程中会受各种物理因素影响而发生退化,例如产生页面污点、纸张破损、背景渗透等,形成低质量的文本图像,这些复杂的退化因素为文本图像二值化带来极大挑战。因此,实现低质量文本图像的精确二值化任务具有重要的研究意义和应用价值,本文研究的主要内容与工作如下:(1)针对低质量文本图像中存在大量与文字笔
学位
隐喻不仅是一种语言现象,也是一种认知手段。随着信息技术的高速发展,隐喻计算已经成为自然语言处理中的重要任务,对信息检索、机器翻译和舆情分析等领域有着重要的推动作用。作为隐喻计算的基础和重要组成,隐喻识别和隐喻情感分析旨在赋予计算机像人类分析隐喻的能力,本文围绕隐喻识别和隐喻情感分析开展了如下研究工作:针对现有研究在隐喻识别中的非通用性,本文提出了一种通用的基于句法结构的隐喻识别方法(Metapho
学位
文化企业数字化转型的本质是企业通过使用新的数字技术来改进企业的核心业务和产品理念,从而蜕变成一个新型文化企业的过程。与传统文化企业相比,新型文化企业具有数字化的内容生产、高价值的驱动因素、融合性的经营范围、多元化的盈利模式等特征。我国传统文化企业数字化转型存在许多制约因素,主要表现为:传统文化服务业自身存在低效率问题;国有文化企业转型长期面临体制性障碍;中小文化企业缺乏资金、技术、人才和政策支撑。
期刊
软件老化(Software Aging)是指在系统长时间的运行中,由老化相关缺陷(Aging-Related Bugs,ARBs)引起的系统性能不断下降并最终可能导致系统崩溃的现象。老化相关缺陷主要包括内存泄漏、套接字泄露、未释放的文件资源等。软件老化现象已被发现存在于多种软件系统中,如Linux操作系统、Android操作系统、Java虚拟机、军事系统等,这种现象使软件不能高效、稳定的运行,有可
学位