视频运动向量和片段时序行为的弱监督感知方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wangyifan_18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时序行为检测是海量视频信号内容分析的关键技术,它往往需要大量带有行为起止时间和行为类别标注的视频样本来训练,而获得这些标注数据的代价极高。为减少标注成本,弱监督时序行为检测(WTAD)只利用粗粒度的视频行为类别标签进行训练,并推断未剪辑视频信号内部每个行为片段的开始时间、结束时间及行为类别。其中主要的挑战有:行为边界标注的缺失增加了准确检测每个行为片段的难度;主流的弱监督时序行为检测算法大都基于“由分类器定位动作”的思想,即先训练视频行为分类器,再对视频片段分类,实现动作定位。但以视频行为分类器来分类信息有限的视频片段,识别精度难以保证。针对行为边界信息缺失和视频片段准确分类问题,本文完成了以下工作:1、提出了运动传播向量感知和非平衡自监督的弱监督行为推断算法,利用时序视觉变化推断缺失的行为边界信息。首先,基于构造的视频残差运动传播向量(MPV)和时序运动感知网(TAP),学习“时序变化——片段关注度”的映射关系,解决弱监督下视频内部动作的感知问题;然后提出非平衡自监督的关注度调整函数(USSL),通过激活次显著动作区域,和增大“背景——动作”片段关注度的差异,解决TAP的侧抑制和缓慢动作捕捉失败的问题。在THUMOS14数据集上,相比于未利用时序变化信息的STPN,本文的运动感知算法的行为检测准确率至少提高2%m AP;在Activity Net-v1.2数据集上,比用时序信息直接剪辑视频的UNT,提高20.8%m AP(t Io U=0.5)。2、提出了一个弱监督下视频片段行为类别的迭代求解模型,实现片段级行为检测的近似监督学习。它借助两步交替迭代训练,获得模型的稳定解。第一步,估计时序行为类条件概率(T-CAP),并根据T-CAP产生每个视频片段的行为伪标签;第二步,在行为类别空间下,学习在伪标签下同类片段的视觉特征共性,和背景片段与动作片段的差异性。通过三元组损失和直接中心损失增大背景与动作片段的分离度,以及同类数据的聚集度,从而降低片段的分类不确定性,最终提高T-CAP的可靠性。在THUMOS14数据集上,对比基于视频级行为分类器的W-TALC,视频片段类别迭代求解方法的平均行为检测精度提高了2.5%m AP。
其他文献
近年来,机器学习和信息融合的飞速发展使得计算机被赋予情绪理解、识别和分析的能力成为可能。情绪识别吸引了来自各个领域的研究人员浓厚的兴趣。传统手工提取特征的方法在脑电情绪识别上取得了不错的成绩,随着深度学习方法的兴起,深度学习已经普遍用于脑电情绪识别,相比于传统手工提取特征的方法,深度网络可以学习到更鲁棒、更深层的特征,从而提高识别精度。而神经网络的宽度和深度一样重要,自宽度学习提出以来,取得了广泛
在无损检测行业中,焊缝缺陷检测是一个重要的分支。在该领域中,射线检测法因其能检测到焊缝的内部缺陷等优点,成为了诸多无损检测方法中的首选。目前大部分X射线成像设备使用的是面状感光元件,而使用线状感光元件的成像设备却有其不可替代的优势。线阵扫描可以极大地提高图像的分辨率,进而显著地提升图像的质量,使得高精度要求下的缺陷检测结果更加可靠。然而,使用线阵扫描得到的图像会带有一些特殊的问题。本文中展示了一种
背景和目的:帕金森病(Parkinson’s disease,PD)是第二大神经退行性疾病,临床主要表现为运动迟缓、肌强直、静止性震颤和姿势步态异常的运动症状,同时还伴随认知功能障碍(Cognitive impairment,CI)、焦虑、抑郁等非运动症状。已有研究表明神经炎症参与PD和PD-CI的发生及发展。其中小胶质细胞在PD和PD痴呆患者脑组织中明显活化,伴随炎症因子增加;而清除小胶质细胞又
蛋白质工程在医疗、食品、化工和能源等多个领域有重要应用,并具有加速合成生物学、医学和纳米技术发展的潜力。在传统蛋白质工程方法中,定向进化需要进行大量的随机突变和筛选,致使效率较低;理性设计则由于对蛋白质序列、结构与功能内在关联的理解不足,存在准确率低等瓶颈问题。随着蛋白质数据库规模的指数倍增长,其中已蕴含蛋白质数十亿年的进化信息,但数据库中大多数蛋白质并没有对应的标签和注释信息。目前,人工智能技术
广东省阳江市的不锈钢冶炼企业采用的RKEF法镍铁不锈钢一体化冶炼工艺过程中会产生不同的镍渣,镍渣的堆积给当地造成了巨大的环境压力。其中产量最大的为矿热炉镍铁渣,初步研究表明其具有制备为机制砂的潜质。结合广东省建筑用砂的短缺的现状,本文对矿热炉镍铁渣制备机制砂展开研究,为了提升利用效率与经济效益,将矿热炉镍铁渣制备为混凝土与陶瓷砖胶粘剂两种不同用途的机制砂。首先,本文研究了矿热炉镍铁渣的化学成分与矿
生物特征识别技术近年成为备受关注的研究领域,其中指部的生物特征,如指纹、指静脉等由于其独特的便捷性、安全性而被人们所重视。然而传统的二维指部识别方法一般是通过单目相机拍摄出二维手指图像进行识别,这会导致两个问题:第一,能用于识别的信息量有限;第二,识别效果易受手指姿态、位置和环境等因素影响。三维手指识别技术则通过多视角相机系统获取手指不同视角图片,并利用三维重建恢复手指三维信息,从而既采集了手指上
国有企业是我国市场经济的重要组成部分,改革开放后国内经济迅猛发展,发展的过程中也萌生许多问题,例如,企业主业不突出、核心竞争力不足等。近年来,围绕国有企业改革出台了很多新政策,例如国有企业混合所有制改革,供给侧改革等。在这个改革的浪潮中,聚焦主业也不失为一种方法。此外,许多企业盲目多元化,陷入困境,需回归主业,改善盈利。再者,以前是卖方市场,多元化经营能提供更多产品和服务,从多方面给企业带来利润。
随着移动互联网和智能终端设备的高速发展,移动游戏市场规模和游戏用户持续增长,移动游戏成为人们休闲、娱乐的重要方式之一。许多游戏厂商开发设计出各式各样的游戏产品供玩家体验,因移动游戏玩家流失成本很低,如何让玩家在初次体验游戏后保留下来,是游戏设计的关键。游戏新手引导设计是玩家进入一款新游戏后最先接触到的系统,很大程度会影响玩家是留存还是流失。不同类型的游戏在游戏玩法和游戏操作上有较大的差异,而游戏新
由于无人艇(Unmanned Surface Vehicle,USV)具有机动性好,成本低和能在极端环境作业等特点,因而无人艇已在石油勘探、故障检测、定点巡航以及海洋救援等海洋工程领域得到了广泛的应用。轨迹跟踪控制在执行这些海洋作业任务时起着重要的作用,是无人艇从事海洋活动的过程中一项关键的工程技术。无人艇航行在复杂恶劣的海洋环境中,经常会受到海风、波浪、海洋流等外界随机干扰的影响。如果在设计无人
随着我国城市建设由“增量建设”向“存量改造”改变,历史街区的保护与更新问题越发受到人们的关注。现有研究多强调历史街区物质环境的保护,对街区社会结构与公共生活的关注相对较少。面临发展停滞和功能衰退的困境,生活性历史街区如何实现活力的再生,实现与城市的同步发展,是本文主研究的主要问题。首先,本文在对历史街区保护与更新相关理论实践梳理的基础上,总结其发展的脉络、特点、趋势;在对活力与再生相关理论实践整理