基于未分割视频的时序行为检测研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:gaoxianfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为当代社会传输信息的主要媒介,视频承载了丰富的各类信息,相较于二维层面的图像信息,视频多了一维时间序列,它记录了一段时间内画面上任何变化所产生的内容,这些内容可以划分为无效信息和有效信息两种类型的信息,通过人力对视频中的有效信息进行行为识别和判断耗时耗力,会浪费相当大的人力资源,因此如何让计算机代替人力便是计算机视觉研究的一个方向。随着计算机硬件技术的发展和深度学习研究的深入及广泛应用,研究者们将深度学习和行为识别相结合,并取得了优异的成果。在这个基础之上,研究者们已不满足对已经分割好的明确包含了人的行为的视频进行行为识别,他们开始对一段包含了多种有效的行为信息和无效的背景信息的长时间视频进行处理,并对视频中的人的行为持续时间进行时间定位,找到这段行为的开始时间和结束时间,称之为时序行为检测,同时要对该段行为进行行为识别分类。总的来说,时序行为检测的研究内容便是计算机提取并处理长时间视频中关于人体行为部分的有效信息,从而达到对未分割视频中关于人体行为的时长定位和行为识别的目的,本文的主要内容如下:(1)提出了基于帧级别的用于实时处理未分割视频的深度时空网络。对于任意一个时间较长的视频,为了解决未分割视频处理时间较长的问题,以达到能对实时输入的视频输出实时处理结果。首先人为将该视频等长度的进行分段,然后将每段视频输入到深度时空网络中,基于三维卷积神经网络(C3D)的特征提取模块可以直接对当前输入视频段的时序信息进行快速特征提取,并将提取的特征作为行为定位模块的输入特征。在行为定位模块中,三维卷积提取到的特征将通过长短期记忆网络(LSTM)来获取该段输入的行为持续时长,并将行为类型相同的连续的视频段的结果相叠加,从而得到该行为总的行为持续时间;(2)将注意力机制运用到深度时空网络以提高准确率。为了提高深度时空网络对时序行为定位的准确率,在对输入视频进行等间隔分段之前,通过基于注意力机制的弱监督的方法去除背景数据,只留下部分含有人体行为信息的视频片段,作为深度时空网络的输入视频进行处理。该方法大幅减少了深度时空网络所要处理的数据量,并去除了干扰数据,提高了准确率。本文针对未分割视频中掺杂的信息复杂,既包含了有效的人体行为信息,也包括了无效的背景信息的问题,提出了一个可以对视频中有效的人体行为信息进行定位和识别的神经网络模型,并为了提高时序行为定位准确率对其作出了补充完善。该深度时空网络最主要的贡献是可以对输入的视频进行实时处理,对于输入的未分割的视频可以做到每秒输出约26帧的视频处理结果,包括可能的行为的开始和结束时间以及该行为的类别,并在THUMOS14数据集上达到较好的结果。同时,为了提高对人体行为定位的准确率,引入了注意力机制为核心的弱监督网络,对输入的视频进行预先的剪辑,从而减少输入到网络的数据量以及无效的背景数据,通过对数据进行预处理来提高精度,相较于未对数据进行预处理的深度时空神经网络的结果有所提高。
其他文献
铁电性是一种自发极化的物质状态,在现代电光学应用中至关重要。铁电性普遍出现在对称性较低的固体材料中,比如具有高介电常数的钛酸钡铁电体,但钛酸钡缺乏刺激响应性单元,难以实现介电性质在大范围内的可逆调控。以液晶为代表的软物质流体材料生产工艺简单、可加工性强,在引入光敏性掺杂剂后可以产生光响应。由于它们的介电常数通常很小,对介电性质调控的研究并不是热门领域。近几年发现某些变革性的向列相液晶不再是宏观非极
学位
聚乙烯醇(Poly vinyl alcohol,PVA)作为具有特殊物理和化学性质的高分子,具有良好的生物相容性、化学稳定性以及生物降解性,是生物医学、组织工程等领域具有广阔应用前景的生物替代和修复材料。这主要是因为PVA主链上含有大量的羟基,可以产生分子内和分子间氢键,并且可以和其他的功能性基团发生化学反应。因此,深入研究PVA水凝胶结构-性能关系对于制备高性能的PVA水凝胶材料具有重要意义。本
学位
癌症作为人类首要的致死疾病,其治疗方法一直都是研究的热门领域。光热治疗(Photothermal Therapy,PTT)作为一种新型治疗方法,成本低廉、操作简便、对设备的要求低、对正常组织的损伤小,且常与化学疗法联合使用,以提高实际治疗效果。在治疗过程中,相对于全身性的系统递送体系来说,局部递送体系能够避免药物过快清除、造成系统毒性。因此,通过构建响应性药物释放的可注射递送载体,能够使药物按需释
学位
蛋白质作为生命的基础物质,在几乎所有生命活动中都有起着重要的作用,蛋白质功能障碍会引起人体机能障碍,导致多种疾病的产生。随着生物工程的不断发展,蛋白质疗法在诸多疾病治疗上表现出巨大潜力。与小分子药物相比,蛋白质药物活性高、特异性强,毒副作用低。与基因治疗相比,蛋白质药物起效快,可避免基因持续表达或插入宿主基因组诱发的免疫反应和癌变等风险。由于细胞存在自我保护机制,外源蛋白质难以自主跨膜自由进入细胞
学位
胺基取代环丙烯基阳离子自首次被合成以来,因其相较于普通碳正离子较高的稳定性而引起了广泛兴趣。它的稳定性不仅来源于它的芳香性,还来自其取代胺基氮原子上电子孤对的共轭。它的富电子特性使得它具有一些与传统阳离子不同的特殊性质,比如离子对应力和氧化还原性。研究者们通过利用开发这些性质,将胺基取代环丙烯基阳离子广泛应用在氧化还原液流电池、液晶、有机催化和医用抗菌等领域。而在这众多的研究中,主要的研究对象是小
学位
在核心素养教育背景下,为促进中学美术教育教学质量提升,大单元教学模式应运而生。开展大单元教学,结合具体的问题情境开展深入探究,有助于教师及时发现学生的学习问题,并以此为前提,提升其问题解决能力。本文以“画家笔下的大自然”单元教学为例,结合具体的教学内容,设置山水画赏析的单元主题,让学生得以建立对单元教学内容的深刻把握,进而提升学生的学科核心素养。
期刊
近年来,随着我国智慧城市的快速发展,物联网基础设施被广泛部署。各类传感器和监测系统在不断地实时监测采集,产生了越来越丰富的多维数据,特别是道路数据和环境数据。目前对于所采集数据的使用,更多的只是在监测关注当前的态势。随着新兴技术的方法,通过AI技术可以对已采集的这些数据进行智能分析处理,以显著提高智慧城市的服务水平。因此,本文基于传感器所采集的历史数据,使用深度学习模型去解决道路结冰预测问题,以及
学位
图像文本跨模态检索是计算机视觉领域中一个新兴的研究课题,旨在对图像与文本两种不同模态的数据进行相互检索。在如今大数据时代下,获取不同模态数据之间的关系,挖掘海量数据中的潜在价值尤为重要,因此该任务在商品检索、菜谱检索等领域有着巨大的应用潜力。由于跨模态检索任务旨在视觉和语言两种不同的媒体数据之间准确的找到相同语义的实例,因此除了如何弥补视觉和语言之间存在的“语义鸿沟”是该任务的主要问题。针对这一问
学位
本论文研究工作针对柔性储能器件日益增长的需求,开发了具有高电化学活性的SrTiO3柔性纳米纤维自支撑薄膜作为电极材料,作为一种钙钛矿型复合氧化物,该电极材料基于氧插入储能机理进行电荷存储,其晶格中的氧空穴结构都可被视作储能点位。通过对该ABO3型氧化物的B位进行掺杂,可有效提升该材料的储能效率,最终获得高性能的柔性电极材料。主要研究内容如下:1、利用静电纺丝法,结合空气气氛下的煅烧工艺,成功制备出
学位
根据古盐都特长隧道防排水设计、施工过程中常见渗水问题,提出具体有效的防排水措施,对隧道施工中发现的问题及时处理,加强防、排水系统的监测和检测工作,确保隧道运营期间排水通畅。
会议