人体行为视频识别的多分支深度三维卷积神经网络

来源 :重庆大学 | 被引量 : 0次 | 上传用户:harddisk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代信息社会,随着各类视频设备、软件应用的不断升级及信息传输成本的不断下降,以人的行为活动为中心主题的视频数据被大量生产并成为信息传播的主要载体之一。因此,开发基于视频数据处理的人体行为识别算法是计算机视觉研究与应用的重要课题之一。近年来,大数据驱动的监督式的深度神经网络方法相较于传统人工设计特征的方法有较明显的性能优势和应用前景,而深度三维卷积神经网络是提取视频数据时空间特征的高效结构,是实现人体行为识别的一个重要研究方向,并且其在视频处理中经济的应用也是需要解决的问题之一。本文围绕深度三维卷积神经网络的迁移构建与视频分析架构的设计,进行了一系列的研究与实验,分别从三维卷积网络的构建与参数迁移过程的简化、多时空点特征提取的架构设计、底层行为数据冗余性的优化、高层行为特征的聚合模式以及多模型分析的互补提升等方面进行了深入研究,使三维卷积神经网络可以脱离对大视频数据集预训练参数迁移的依赖,并能达到行为识别的先进水平。本文的主要研究内容可以被具体总结为如下几个方面:(1)在简化三维卷积网络的构建和参数迁移过程方面,提出了三维卷积网络的二维卷积膨胀构造方法。该方法通过空间同构、时间异构的三维卷积网络的高效构建和二维卷积网络参数的有效迁移,替代了计算成本高昂的大规模视频数据预训练的参数迁移方法,从而降低了构建三维卷积神经网络所需要消耗的训练时间和计算资源。本文提出的二维卷积膨胀法理论上将二维参数的迁移视为一种域适应过程,而非一种隐式预训练过程,并将三维卷积网络视为在时空间层次上容纳多个有效二维卷积网络的有序容器,从而使三维卷积网络在空间层次与时间层次具有各自适应性的分析模式。与传统的二维膨胀方法相比,本文的方法不仅简化了三维卷积网络的构造过程,还扩展了应用范畴。(2)设计了多分支深度三维卷积神经网络的视频分析架构。该架构可以在视频数据的多个时空点上提取高层次时空间特征,从而获取视频不同时域区段上的动作语义信息,通过架构中提出的残差全连接网络对不同区段的动作语义进行聚合理解,进而分析视频中的整体行为信息,加强了对视频中长时间内容信息的理解。为进一步探索时域区段数据与架构分支数目对行为识别的影响并确定最优的架构设计,本文实验对比了五种分支架构在输入多种不同容量的时序信息下的性能表现。实验表明,视频分析性能的提升需要架构分支数目与各区段时序信息输入容量成反比变化,并确定了六分支架构为最优的视频分析模式。同时,在多分支特征聚合模式上的消融实验表明,提出的残差全连接网络可以有效减少梯度破碎并能很好地聚合高层行为表示,提升行为识别的效果。(3)提出了多分支三维卷积网络与改进稠密轨迹的互补融合方法。改进稠密轨迹作为传统人工设计特征的方法在局部时空间区域提取具有显著特征的描述子,深度特征表示则是通过端到端的监督学习构造,本文的互补融合方法为利用这两种特征方法在行为识别上的各自的优势,探索了融合人工设计特征与深度特征的策略,并且通过实验对比了多模型集成的方法与多特征分类互补融合的方法在行为识别上的性能表现,证实了提出的的互补融合方法在分类性能上的优势。实验还进一步在稠密连接网络上应用了二维卷积膨胀法与多分支架构的设计,验证了相关方法的适用性与泛化性。同时,多模型集成方法和互补融合方法的组合使用获得了先进的行为识别结果。(4)提出了多分支三维卷积神经网络的多流网络框架。本文在光流图像域中应用了提出的二维卷积膨胀法与多分支三维卷积网络架构,训练了适用于光流图像处理的深度三维卷积网络,并进一步构建了多流融合的多分支三维卷积神经网络,从而提升了人体行为识别的效果。最终构建的集成模型在UCF101数据集上取得了95.8%的识别准确率,在HMDB51数据集上取得了75.2%的识别准确率,从而使深度三维卷积神经网络可以在不进行视频数据预训练的条件下达到人体行为识别的先进水平。
其他文献
钛合金凭借其超高的比强度和优异的耐腐蚀性能被广泛应用于航空航天领域,然而活性高、热导率低以及变形抗力大等特点使其采用传统制造方法加工非常困难。此外,航空航天零件趋于功能化、轻量化和结构一体化设计,传统制造技术愈发难以满足航空航天复杂结构钛合金零件的制造需求。激光选区熔化(Selective Laser Melting,SLM)成形技术基于“离散-堆积”增材制造理念,可直接成形出点阵夹芯、异形曲面、
非线性特性广泛存在于电力电子、航空航天、化工过程等控制系统中,这增加了系统分析与综合的难度。为解决非线性问题,Takagi与Sugeno于1985年提出了Takagi-Sugeno(T-S)模糊模型。T-S模糊模型具有良好逼近非线性函数的能力,同时,在该理论框架下,很多优秀线性系统研究成果可以被借鉴解决非线性系统问题。在过去的几十年中,T-S模糊系统受到了学者们的广泛关注,并取得了许多有价值的学术
本文围绕矿井深部开采富含瓦斯、低渗透煤层过程中瓦斯防治重要的基础理论——工程扰动下富含瓦斯煤岩层损伤破坏演化、瓦斯运移及其测试方法这一系统问题展开研究。理论分析掘进、爆破及开采扰动富含瓦斯煤岩层损伤破坏演化机理、瓦斯渗流和瓦斯涌出规律;实验研究深部矿井煤系煤层和岩层瓦斯赋存的基本规律和工程扰动下富含瓦斯煤岩层损伤破坏演化规律;结合实验矿井煤层地质条件数值模拟研究沁水煤田实验煤层在工程扰动下富含瓦斯
水利工程是国民经济基础设施的重要组成部分,在防洪安全、水资源合理利用、推动国民经济发展等方面具有不可替代的重要作用。由于大型水利工程规模大、技术复杂、工期较长、投资多,这对水利工程结构的耐久性要求尤为严格。水利工程混凝土结构最常见问题为裂缝、冻融破坏、钢筋锈蚀及碱骨料反应,特别是对于北方严寒地区的水工大体积混凝土,冻融破坏尤为严重。水工混凝土耐久性最薄弱部位为水位变化区,其所处的真实服役状态为应力
中国的侏罗系以陆相地层为主,仅在西藏地区和黑龙江东北部发育海相地层,华南早侏罗世也存在较广泛的海相及海陆交互相沉积。中国侏罗系不同陆相盆地间的岩性和化石存在较大差异,长期以来争议很大,特别是同位素年代学和生物地层学的结果存在严重分歧。本文根据地层特征,结合大地构造和古地理等因素,将中国侏罗系分为5个大区,其中陆相盆地的基本规律为:西部区大型盆地侏罗纪沉积发育相对完整,东北—华北区缺失早侏罗世沉积,
技术创新是推动经济发展和社会进步的强劲动力,更是企业获得核心竞争优势并实现持续发展的力量源泉。近年来,随着垂直价值链的分工与合作日益深化,产业链上下游之间的联系变得愈发紧密,企业的竞争优势已不完全取决于“点”与“点”之间的横向竞争,而是越来越多的受到“链”与“链”之间纵向关系的影响。在以技术创新为驱动力的大背景下,企业在创新发展过程中所处的产业链上下游交易环境己成为影响其技术创新动力与研发投资效率
碳钢作为一种重要的金属材料,在机械制造、交通运输、化学工业、管道、采矿及建筑业等各个领域都有广泛应用。但碳钢易被腐蚀,腐蚀不仅严重影响碳钢的强度、安全性及美观性,而且还可能导致事故或其它更严重的后果。有机涂层保护是行之有效的碳钢腐蚀防护技术,具有施工简单、成本低等优势而被广泛应用。但是传统的有机涂层在使用过程中容易出现裂纹或缺陷,腐蚀介质可通过裂纹或缺陷渗透至涂层/基体界面使得涂层防护失效。近年来
随着能源危机和环境问题的日益严峻,能量转化和存储日益受到关注,多级功能微纳结构构筑是提高能量转化和存储效率的有效途径。本文利用绿色高效的电化学技术构建了几种多级微纳米功能材料,利用扫描电镜(SEM)、透射电镜(TEM)、X射线衍射(XRD)、X射线光电子能谱(XPS)、能量色散X射线光谱面扫(EDX)、傅里叶变换红外光谱(FT-IR)、拉曼光谱(Raman)等手段表征了产物结构、形貌和化学组成,利
车辆作为满足人们出行、运载需求的最重要方式之一,历来为最新技术应用的重要领域。而作为新一轮工业革命的重要技术群落,智能化技术理所当然地被运用于汽车领域。特别是智能汽车,通过集成、使用包括先进电子传感器、低时延网络通信设备、高算力计算机、电控执行机构等,对传统汽车进行全面升级,减少人员对车辆的劳动力输出,使得车辆可以更全面地为人提供更为优质的服务。从泛化概念来讲,智能汽车应该是包含无人驾驶系统、智能
数据驱动技术在当今工业过程中的广泛应用使得异常数据问题变得十分突出。然而,由于工业系统及其工作环境的复杂性,异常数据的检测通常面临各种各样的挑战。首先,缺乏真实的“数据标签”是工业数据最显著的一个特点。由于对数据进行标记通常需要具有领域知识的专家手动完成,因此是一项十分困难的任务。其次,工业数据的成分比较复杂。绝大多数工业系统不仅存在多个正常的工作状态,还存在一些异常状态,这导致工业数据不仅包含了