基于协同时空建模的视频行为识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:down678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别是计算机视觉中的核心问题,在人群分析、人机交互、虚拟现实等应用中都存在该技术的身影。而时空建模是视频行为识别的一个重要部分,有效地进行时空建模可以极大地提高行为识别的精度。本文针对视频时空建模开展研究,利用卷积神经网络设计新的网络结构以捕捉有效的时空特征,分别提出了基于协同时空建模和自适应时间迁移模块的视频行为识别算法,主要研究内容如下:(1)阐述了视频行为识别的相关背景及意义,总结了视频行为识别国内外研究现状并概括目前算法存在的局限性。同时分析了视频行为识别任务的难点,介绍了视频行为识别的基本框架结构和本课题使用的两种与时序相关的数据集。(2)设计了一种卷积网络模块,结合三维卷积和时间迁移模块用以学习互补的时空特征,使来自三维卷积和时间迁移模块的特征相互补充,相互利用,实现高效的行为识别模型。并将该卷积模块插入到骨干网络BN-Inception和Inception v3中,通过对比实验验证该模块的有效性。(3)提出嵌入注意力机制的协同时空特征学习模块用以融合来自三维卷积和时间迁移模块的特征信息,克服了采用简单相加融合无法充分利用时空特征的弱点,有效地使用多个维度的信息,提高了视频行为识别任务的准确度。该模块可以增强重要特征,减弱无关特征,从而自动地学习一种特征选择机制。实验结果表明,基于协同时空建模的算法在两种数据集上都取得了显著的效果。(4)设计了一种自适应时间迁移模块,该模块在每一层网络中均使用不同的通道迁移率,即根据上下文内容自适应地位移不同的特征通道。该模块在建模时空特征信息的同时,能够有效地编码动作实例的速度特征,提高了复杂场景下视频行为识别的精度和鲁棒性。实验验证了该模块的有效性,并且在两种数据集上都取得了竞争性的性能。
其他文献
行为识别是视频分析领域的重要研究课题,在视频监控、医疗辅助、人机交互等场景中应用广泛,其目的是借助计算机视觉技术自动分析和识别视频中的人体行为,并给出分类标签。然而,由于视频内容的复杂性和行为本身的多样性,使行为识别面临着巨大的挑战。现有的行为识别方法,在分析和识别视频中的人体行为的过程中,仍然受到复杂场景信息和背景噪声的干扰。当前的多数方法局限于从外观和光流中学习行为模式,使得模型在分析理解复杂
MEMS压力传感器因其结构特点和工作原理,具有测量精度高、易于大批量生产、长期稳定性好等优点,且制造过程与传统集成电路工艺兼容,已经广泛应用于航空航天、智能制造、汽车电子及生物医学领域。随着先进制造、人工智能技术发展,结合谐振式传感器具有灵敏度高、成品体积小、驱动功耗低的特点,谐振式MEMS压力传感器一直以来是国内外高校、科研机构研究的重点。传统压力传感器主要采用静电激励、电热激励、压电激励等驱动
近年来,随着人们公共安全意识的提高,智能安防监控系统在公共安全领域中起到了越来越重要的作用,而行人再识别作为其中一项关键技术,受到了广泛的关注和研究。但在复杂的实际应用场景中,通常会存在行人姿态变化、空间错位等不理想的情况,导致算法提取到的行人特征难以达到理想的效果。因此,本文主要围绕如何增强行人特征的表示能力展开研究,提出了两种能够有效增强行人特征的行人再识别网络。本文的主要工作内容及创新点总结
随着柔性电子皮肤的发展,研究用于人体运动监测、手势识别、医疗健康和人机交互等领域的柔性应变传感器具有重要的意义,基于裂纹的柔性应变传感器由于其超高的灵敏度,近年来受到了广泛的关注。论文利用仿生概念,受蝎子对细微机械振动敏感能力的启发,设计并制备一种基于微裂纹结构,兼具高灵敏和高稳定特性的柔性应变传感器。本研究选取具备优良导电性、强化学稳定性和高热稳定性的羟基化石墨烯导电材料,强粘接性和可快速固化等
结构光立体视觉技术具有非接触,快速,便携性好,精度高等优点,因此在工业制造,生物医学,和文物保护等领域应用广泛。近年来随着人工智能的兴起,人脸识别、人脸支付技术、AR技术等对三维测量的要求越来越高,如何实现快速、高精度和低成本的三维测量技术变得尤为重要。常见的结构光三维测量技术通过投影正弦条纹来获取被测物体的相位信息,通过相位展开算法进行三维信息恢复。但该技术存在两方面问题:首先,由于投影的正弦条
据统计,2018年至今,由于种种客观原因造成电力杆塔倾斜和倒塌事故累计发生900多起,直接造成经济损失超14亿元,所以电力杆塔的安全监测对于输电线路的稳定运营具有重要价值。由于杆塔属于大型钢结构件,振动对杆塔的倾斜度监测数据影响较大,引入了大量观测噪声,导致杆塔倾斜度测量精度低,杆塔倾斜度监测系统难以发挥作用。因此对于杆塔倾斜度监测方法进行研究,实现电力杆塔在线监测和预警,这对于输电线路稳定运营具
随着物联网与半导体技术的发展,工业中对于流量仪表设计从传统的机械式结构向着数字化、智能化、网联化的方向不断推进;同时伴随着近年来工业物联网技术的兴起,工业生产制造过程中对于支持物联功能的工业设备的需求也越来越多,而已经得到广泛应用的数字流量仪表是其中之一。现有的数字流量仪表的物联技术以定制化为主,导致物联技术向其它流量仪表移植的匹配难度大、通用性差;在物联功能方面以实现低刷新率的仪表日志数据转发功
红外成像技术需求日益增长,因成本和工艺水平的原因,限制了红外成像技术的应用。为实现对较弱的红外辐射进行成像且节约成本并提高成像的细节分辨率,提出将光学层析技术与调频调制盘成像技术相结合的方法来实现一种低成本情况下获得更高分辨率和极高信噪比的成像系统。经实验验证,该技术能够在红外焦平面阵列无法进行成像的情况下仍能保证成像的稳定性。本文主要研究工作和成果包括:1、以层析成像中的傅里叶中心切片定理为基础
随着计算机技术的蓬勃发展,人工智能迎来了新热潮。深度学习作为人工智能领域的主要技术之一,在计算机视觉、自然语言处理、语音识别等诸多领域取得了突破性的进展。在物体检测、对象识别、机器翻译等单模态任务中达到了媲美人类的水平。近年来,越来越多的研究者将关注点从单一模态信息处理扩展到跨模态任务,诸如视觉叙事、自动问答等更加复杂且具有应用价值的多模态任务成为新兴的研究热点。图像字幕生成任务就是其中一种,旨在
心率是一项重要的生命体征参数,可以反映个体的生理和心理状况,其检测广泛应用于医学诊断、健康监护、疲劳驾驶检测等领域。近年来,基于普通摄像头的远程光电容积描记术(remote photoplethysmography,r PPG)技术由于无需与个体接触、成本低、简单方便和应用广泛等优点,成为研究热点。但是,由于r PPG技术包含的脉搏波信号幅值微弱,易受到运动伪迹的干扰,导致检测的心率值准确度下降。