基于多模态信息的视频动作识别研究

被引量 : 0次 | 上传用户：hfg595

【摘要】

：

【作者】

：

李勇胜

【机构】

：

北京邮电大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对视频中出现的人类动作进行识别一直是机器学习领域中研究的焦点内容,其可以被广泛应用到众多的日常生活领域中,包括:自动驾驶、智能家居、游戏交互、视频点评、安全、运动训练等,并产生积极影响。由于视频中数据的复杂性导致对视频中人类动作识别是一项特别具有挑战性的任务。不同观看条件、不同的观看角度、与视频动作主体无关的噪声内容、某些动作所包含的复杂的变化和时序结构都会提升网络模型设计和训练的难度。本文围绕视频中动作识别任务易受主体显著程度和类间相似性影响、数据集构建自动化程度低的问题开展研究工作,取得了以下研究成果:1、本文提出了一种应用于深度3D卷积网络的注意力和微注意力分支结构,用于解决视频画面中动作主体不显著时使用视频图像来识别动作的网络出现的准确率下降问题。注意力分支由1*1*1的卷积核和最大池化层构成。该分支可以以插件的形式灵活的被添加到现有的3D卷积网络之中,并维持原有网络整体架构不变。添加了注意力分支的网络可以在特征提取过程中实时融合注意力特征,以此提高网络对于画面中动作主体的聚焦能力。微注意力分支主要应用于存在多个子分支的网络模块之中,提高注意力特征的定向融合能力。实验结果表明,添加微注意力分支构建的网络与原始网络相比识别准确率提高了 3.6%,而需要训练的参数规模仅增加了 0.6%。2、本文提出了一种采用声音信息进行辅助动作识别的双路神经网络,用于解决使用视频画面作为输入的网络面对动作主体短暂时间没有出现视频画面中或没有出现在显著位置上时无法做出准确判断的问题。本文通过模仿人类大脑对于外界声音的处理过程对视频中的声音进行数学统计来得到声音纹理特征,并设计了以声音纹理作为输入的网络。随后,将该网络与使用图像作为输入的I3D网络组合构造了一个双路神经网络。两分支网络的预测结果通过平均融合的方法得到最终结果。在Kinetics数据集上使用该双路神经网络与单一的I3D网络进行对比。实验结果表明,与单一网络结构相比,双路网络模型的动作识别准确率提高了 7.6%,这表明声音可以为动作识别提供重要线索。3、本文提出了一种基于文本信息和动作关联的视频动作分类器,可以实现对字幕文本中的内容进行动作标记以减少数据集构建过程中的人工参与程度。本文以BERT模型为基础设计了 Speeach-Action分类器,该分类器可以通过理解文本信息来推测与之相对应的动作类别。通过对收集的剧本文本进行解析来构建Action-Speech数据集,并对分类器进行训练,使其可以通过文本信息识别特定动作。使用该分类器对字幕文本进行动作标记来构建视频数据集sMovie。本文通过验证sMovie数据集的有效性来证明分类器的有效性。在实验环节,sMovie数据集和被限制为相同规模的Kinetics数据集对同一网络进行训练,并迁移到UCF101数据集进行验证。实验结果显示,使用sMovie数据集训练的模型平均准确率仅低5.4%,这表明sMovie数据集中包含大量有效的视频片段,可以用来辅助网络的设计和训练。4、本文设计了一个基于类的内在关系的多路网络融合方法,用于缓解相似动作对识别准确率的影响。该融合方法从不同网络分路对不同类别的预测分数中计算动作类别之间的混淆矩阵,以此来获取不同信息流中动作类别之间的相似性关系。在对网络分路预测结果的融合过程中,依据不同分支对于不同类别相似性的差异来调整各个分路融合权重,以此获得多路网络的最终预测结果。同时,结合本文现有成果设计了一个多路神经网络。该多路网络结构包含中的四个独立的网络,分路采用了视频所提供的时空信息流、动作信息流、音频信息流和文本信息流,以此实现对视频中丰富的多模态信息的充分利用。在实验环节,使用基于类的内在关系的融合方法的多路网络结构在Kinetics数据集上准确率较类间独立的融合方式高4.6%。

其他文献

新能源客车底盘设计中的车身重心位置与悬挂系统优化

对新能源客车底盘设计中的关键问题,包括车身重心位置与悬挂系统优化等问题进行了研究。首先介绍了新能源客车底盘设计的基本要求和特点,然后分别从车身重心位置和悬挂系统两个方面进行了优化研究。在车身重心位置优化方面,介绍了车身结构设计、车辆荷载分配和车辆调整与控制等方法;在悬挂系统优化方面,介绍了悬挂系统类型和特点,以及悬挂系统刚度、阻尼、减震器和弹簧等参数设计方法;综合研究中,介绍了综合优化的目标和要求

期刊

豫北地区长短历时极端降水重心迁移与变化趋势

极端降水是突发性和危害性水灾害事件的诱因,不同历时的极端降水所引发的水灾害类型不尽相同。基于豫北地区1991—2020年实测日降水数据,采用极端降水重心模型、标准差椭圆以及Mann-Kendall突变检验的方法,对豫北地区1,3,7,15,30 d极端降水重心迁移与变化趋势进行分析。结果表明:1991—2020年豫北地区极端降水重心分布在新乡市东南部和开封市北部边界一带,降水重心空间分布格局位于西

期刊

上海数交所：引导多元主体培育数商新业态

报纸

玻璃体切割联合内界膜翻转术治疗黄斑裂孔对裂孔封闭率、视力及视网膜微结构的影响

目的比较玻璃体切割联合内界膜翻转术与内界膜剥除术治疗黄斑裂孔（MH）对裂孔封闭率、视力及视网膜微结构的影响。方法回顾性分析2017年1月至2021年1月接诊的47例特发性MH患者，根据手术方式不同分为观察组24例和对照组23例。观察组接受玻璃体切割联合内界膜翻转术治疗，对照组接受玻璃体切割联合内界膜剥除术治疗。比较两组裂孔封闭率和术前术后最佳矫正视力（BCVA）、视网膜微结构[黄斑中心凹视网膜

期刊

AUV接驳装置悬浮平衡分析与配重优化设计

为了保证用于对接回转型自主水下机器人（autonomous underwater vehicle,AUV）的开合式接驳装置处于水下单点系泊悬浮状态时的平衡与稳定，须对其进行配重优化设计。通过对开合对接机构的位移分析，获得接驳装置体重心和浮心位置的变化范围；基于静力学理论，建立并分析重心、浮心和拖点的相对位置与接驳装置悬浮平衡纵倾角的关系。为了使接驳装置悬浮平衡纵倾角及其波动幅值小，及配重后接驳装置

期刊

梳型长短侧链聚羧酸减水剂对水泥早期水化行为的影响及作用机理

调节异戊烯醇聚氧乙烯醚（TPEG）的聚合度及与丙烯酸（AA）的摩尔比，以过硫酸铵（APS）为引发剂、甲基丙烯磺酸钠（MAS）为链转移剂，通过水溶液自由聚合法合成了长侧链聚羧酸（LPCE）、长短侧链聚羧酸（LSPCEs）和短侧链聚羧酸（SPCE）3类梳型聚羧酸减水剂（PCEs）。研究了长短侧链比例对水泥早期水化行为的影响，进一步通过PCEs水溶液聚集形态、吸附性能和引气性能等探讨了长短侧链比例对水泥

期刊

硬岩泄水洞“取芯+劈裂”非爆法施工技术及改进

为解决复杂环境下（不允许爆破）硬岩（如Ⅱ、Ⅲ级围岩）小断面隧洞非爆掘进工法选择难题,基于非爆工法适用性比选,采用“周边取芯+中部劈裂”非爆开挖进行现场施工,分别对其环境影响及施工效果进行分析。研究及试验结果表明:“周边取芯+中部劈裂”非爆开挖技术较适用于复杂环境条件下整体性良好的硬岩或中硬岩（Ⅱ、Ⅲ级围岩）隧洞掘进;小型“周边取芯+中部劈裂”机具施工时,其劳动强度大,施工效率不高,安全性亦不佳,日

期刊

浙江台州市社监事会秋粮秋收存在的困难问题和对策建议

报纸

某型金属陶瓷封装PIN二极管焊接失效与预防

对某型金属陶瓷封装PIN二极管的焊接失效进行了分析，针对两种常见的失效现象，分析了可能的失效原因，提出了具体的预防措施，并进行了试验验证，为该器件批量化工业应用提供了一定的技术指导。

期刊

复杂环境下引水隧洞控制爆破与液压劈裂破岩技术研究

为解决复杂环境下引水隧洞在坚硬岩层中破岩掘进的技术难题，保障引水隧洞安全快速施工，以深圳市石岩北清水隧洞工程为依托，将工程项目分为常规段和近接穿越段，分别研究了控制爆破与液压劈裂施工技术。在常规段控制爆破破岩施工中，对掏槽孔、爆破孔数量及排布、装药方式进行控制优化，结合工程减振措施，解决了坚硬岩石爆破施工中炸药用量大、振动速度超标、破岩效率低等问题，并取得了良好的爆破效果。在近接穿越段液压劈裂破岩

期刊

基于多模态信息的视频动作识别研究

与本文相关的学术论文