基于精确边界预测的时序动作检测研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:jj__yy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时序动作检测任务是当前计算机视觉领域的研究热点之一。该任务可以定义为:以自然采集的视频片段作为输入,自动输出视频中包含动作片段的开始时间点和结束时间点(时序动作提名生成),以及该动作的具体类别(动作识别)。本文分别对时序动作提名生成任务和时序动作检测任务进行了探索和研究。关于时序动作提名生成任务,针对现有方法对动作开始和结束边界点难以准确定位的问题,本文提出了一种基于精确边界预测(Boundary Prediction-Precise,BP-P)的时序动作提名生成网络。首先,BP-P方法通过对视频序列中局部级动作特征和提名级动作特征的融合,更充分地利用背景与动作分界点处的特征变化,提升动作边界定位的准确性。其次,针对训练过程中的正负样本及难易样本不均衡问题,BP-P方法提出了一个新的损失函数“Free-Focal Loss”。该损失函数能够有效提高不同区间Io U样本在网络权重梯度更新时的贡献平衡度。最后,针对分类和回归任务联合训练中困难样本的大梯度对训练不利的问题,通过引入“平衡L1损失”来提升准确样本的回归梯度。为了证明BP-P模型在时序动作提名生成任务上的有效性,在公开数据集Activity Net-1.3上进行了实验。实验结果表明,BP-P方法能够将AR@100指标从基准的75.01%提高到76.56%,与当前本数据集上已知的最好结果相当(76.75%)。关于时序动作检测任务,目前一阶段框架具有高效率的优势,而两阶段框架实现了高精度,为了继承两者的优点,同时避免它们的缺点,本文首次将目标检测RefineDet算法中一阶段与两阶段框架融合的思想引入到时序动作检测任务中,提出3D RefineDet时序动作检测算法。该算法通过对二维网络模块进行时空泛化,构建了适用于视频特征的3D检测网络。为了证明3D RefineDet算法在时序动作检测任务上的有效性,在公开数据集THUMOS-14上进行了实验。实验结果表明,3D RefineDet算法在m AP@t Io U指标的多个Io U阈值下都获得了显著的效果提升,当Io U阈值取0.3时,将m AP从50.1%提高到了53.6%,提高了3.5个百分点。
其他文献
在“十四五”规划中重点强调了高性能MEMS传感器的研制。鉴于传统的硅基MEMS压力传感器普遍具有温度漂移和时间漂移等缺点,本文从抗干扰的角度出发,基于信噪比理论对MEMS压力传感器芯片进行了结构设计,并结合恒温控制和恒流源自校正方法显著提升了其性能,论文的主要研究内容如下:首先,理论分析了基于惠斯通电桥结构的压力传感器工作原理,简介了传感器温漂和时漂产生原因。通过ANSYS模拟仿真设计了多种压力传
分类是数据挖掘和机器学习领域中最基本、最具代表性的问题,精准且高效的分类是许多科学研究和应用工程的基础。进化计算(Evolutionary Computation,EC)技术由于具有较好的全局寻优能力,已成功地应用于解决许多问题,例如:分类问题,特征选择问题等。其演化出的进化分类模型便是用于求解分类问题的方法之一。近年来,头脑风暴优化算法(Brain Storm Optimization,BSO)
交通流量数据是一种典型的具有非线性特征的数据集,同时收集到的交通流量数据由于受多种因素的影响表现出高度随机性。因此,建立基于多因素交互影响的短时交通流量预测模型具有现实意义。本文基于深度学习的方法和模型,利用卷积神经网络和长短期记忆神经网络建立短时交通流量预测模型。主要研究内容如下:(1)提出了一种带有因果卷积模块的TCN-LSTM模型,该模型在特征提取部分由两个子网组成,一是基于原始交通流量数据
随着视频成像和多媒体技术的进步,视频技术正朝着超高清和立体化的方向发展,为了解决立体视频高效压缩问题,视频编码联合组在高效视频编码(High Efficient Video Coding,HEVC)标准的基础上发布了3D高效视频编码(3D-HEVC)标准。但是新的标准在最大限度的去除数据冗余的同时,对视频的画质也造成了一定的影响。因此,如何有效地消除视频中存在的失真和孔洞,提升视频的质量,是迫切需
随着数据采集设备智能化及自动化的不断发展,数据采集更加方便,数据采集的内容更具多样性,数据维度不断增加,采集频次也在不断增强。当前,气象数据的采集多呈现为以分钟记录。气象部门在气象监测设备的更新与改造方面每年投入大量的资金,其目的并不只是为了记录数据,而是通过收集数据期望能够从中挖掘出某些气象规律,更好地服务于经济社会之需。近年来,随着深度神经网络技术地发展,研究人员在利用时间序列进行预报方面做了
近年来,随着公共安全需求的增加,视频监控技术得到了广泛的应用,产生了海量的视频监控数据,然而从如此大规模的视频数据中搜索犯罪嫌疑人十分困难,因此能够从视频监控中自动搜索寻找行人的算法具有重要的研究价值和意义。基于文本的行人重识别作为解决该问题的有效方法,在视频监控、电话报警、嫌疑人查找等领域具有非常大的应用价值。基于文本的行人重识别需要克服模态异质性,即文本和图像信息之间巨大的差异性。随着卷积神经
近年来,雷电灾害在全世界范围内造成了大量的经济损失和人员伤亡,对人类的各项活动都带来了巨大的威胁。如何有效减少雷电灾害的发生成为研究学者所关心的目标。雷电灾害风险评估和雷电预测研究是全社会提高雷电防御能力的两个重要途径。本文分析了目前雷电灾害风险评估的研究状况以及存在的不足,引入神经网络算法进行改进;对于雷电活动的预测,本文运用ConvLstm网络搭建了预测框架,并提出了一种解决数据稀疏问题的方案
跨社交网络的用户身份匹配的目的是检测来自不同社交网络的用户是否属于同一个人。这些社交网站中的信息在其它领域中通常具有重要意义,如信息扩散、链接预测、跨域推荐、隐私保护和身份验证等。当前,跨社交网络的用户身份匹配算法主要利用个人属性特征、网络结构特征和行为特征进行研究。虽然现有研究取得了一定进展,但是仍然存在一些不足,比如现有研究未能充分挖掘用户间的亲密程度、缺少大量准确可靠的标签用户,未能有效将全
视频压缩感知系统基于压缩感知理论,仅在一次曝光过程中将多帧画面投影至二维压缩测量,进而实现高速成像。为了从二维压缩测量信号中恢复出原始视频信号,经典的重建算法基于视频的稀疏性先验进行迭代优化求解,但存在重建质量低,且耗时过长等问题。深度学习因优异的学习能力而受到广泛关注,也被应用于视频压缩感知重构问题,但现有基于深度方法的重构算法缺乏对于时空特征的有效表达,重建质量仍需提升。为此,本学位论文着重研
近年来,计算机视觉的发展使得图像处理技术被运用于航空、气象、医疗、安防等各个领域。但是图像在采集、传输和存储等过程中容易受到各种噪声干扰,导致图像质量下降,从而直接影响图像后续处理。因此,图像去噪是图像处理中必不可少的环节。目前研究者们针对高斯噪声进行研究,并提出了许多高性能的去噪算法。而混合噪声的噪声分布较复杂。对诸如混合高斯、脉冲噪声的研究还不够深入,相关算法的去噪性能有待提升。目前对于混合噪