时空特征融合的视频动作识别研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:myzhijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着计算机视觉和人工智能技术的飞速发展,通过计算机来识别人体动作已经成为了人工智能领域内热门的课题之一。它的主要任务是从输入的视频中提取有效的时空特征,然后根据同类相似异类相斥的原则对不同的特征进行分类。目前,动作识别研究已经被广泛研究于智能监控、人机交互以及运动检测等多项应用领域。本文基于时空特征融合对目前主流的动作识别算法进行了总结和归纳,并以提取表达能力强、鲁棒性高的视频特征为目的,提出了3种时空特征融合的方法。以下是本文的主要工作:(1)本文首先将基于深度学习的主流算法分为成三个类别进行综述:基于二维卷积神经网络算法、基于三维卷积神经网络算法和基于自注意力机制结构算法。接着,分析了不同方法在结构设计上的优势和缺陷,并根据各自的实验数据分析比较了它们在UCF101、HMDB51和Something-Something数据集上的识别效果差异。(2)为了弥补二维卷积网络不能联系特征上下文学习全局信息的劣势,本文结合自注意力机制分别沿时间维度和空间维度对卷积神经网络输出的高级特征图进行了全局的特征增强学习。并采用不同方向维度的空间一维卷积和不同空洞率的时序一维卷积替换自注意力的线性变换矩阵提取多尺度特征,丰富了模型的特征表达能力。通过消融实验分析得出结论:本文设计时空卷积注意力能够有效提升模型的识别准确率。(3)为了解决三维卷积计算复杂度高的问题,本文沿时间维度采用压缩激励的方式对二维空间卷积的输出特征和一维时序卷积的输出特征进行了自注意力融合,并以此设计了时空特征交互模块。实验结果表明,该融合方法的识别成绩相比于三维卷积和P3D卷积都有明显提升。(4)为了使得特征图在传播过程中实现更好的时空特征交互,本文基于通道分层和同级残差相连的方式设计了多级特征聚合模块。该模块在通道维度上对卷积网络进行分割处理,用二维卷积的输出残差连接三维卷积的输入,以此来提取更大感受野的视频级特征,然后在通道维度聚合二维卷积和三维卷积的共同计算结果以丰富特征多样性。此外,本文还设计了动态信息增强模块,该模块可以沿着时间维度增强动态区域的特征权值,弱化无关信息造成的干扰。通过消融实验分析得出结论,这两种模块在动作识别任务中均具有提升分类准确率的能力。
其他文献
随着计算机的普及和数字信息处理技术的高速发展,人们对图像质量的要求不断提高。数字图像因其记录快捷、信息量大及传输便利等优点成为计算机时代最重要的信息载体。然而,数字图像在获取过程中常常受到散射介质(如雾、霾及水体等)的影响,使得到的图像不同程度地存在细节丢失、颜色失真、对比度降低等问题,从而造成图像的降质,如此将影响特征提取、目标识别和分类等后续图像处理操作。为此,文中以降质图像中常见的含雾图像和
学位
图像增强是图像处理领域的重要分支,其作用是根据用户需求有针对性地突出或保留图像的特征信息,以达到提升图像质量的目的。随着计算机视觉技术的飞速发展和人们对高质量图像需求的不断提高,图像增强技术涉及的研究领域日益广泛。当前阶段,低能见度图像增强是图像增强技术中的研究热点,受到了国内外众多科研工作者的关注。为此,文中在借鉴了图像增强领域的相关理论和研究成果后,对低能见度图像中的大气图像(含雾图像)和水下
学位
最优化问题一直是计算机工程领域内的关键任务。目前,越来越多复杂的优化问题已不适于使用传统优化技术求解。智能优化算法以其寻优能力强、灵活性高、鲁棒性强等优点被广泛的用于求解最优化问题。研究者已经提出了诸多经典的高性能的智能优化算法,比如粒子群算法、遗传算法、鲸鱼算法等。阴阳对优化(YYPO)算法是最近提出的一种高性能的轻量级智能优化算法,但其在优化过程中存在容易陷入局部最优、搜索精度不够、初期分布影
学位
近年来,由于人工智能在众多的场景中为人们提供了便捷的服务,因此人工智能的发展和使用受到了更多人的青睐。群智能作为人工智能的一种,因其不依赖于训练集的特点,而成为人工智能研究中不可或缺的一部分。随着NP-hard难题的日益突出,群体智能的研究越发受到关注。NP-hard难题在现实应用领域中很难找到全局最优值。此类问题中可能存在的潜在解决方案的数量往往是无限的。在这种情况下,在一定的时间范围内找到有效
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种对地观测系统,能够快速获取目标信息并对目标进行高分辨率成像,且具有全天候、全天时工作能力,在军事和民用等领域得到了广泛的应用。作为SAR领域的研究热点之一,SAR图像解译技术能够完成SAR图像中目标的检测、识别、分类和分割等任务。近年来,随着深度学习的迅速发展,光学图像领域的图像语义分割技术已取得显著成绩,该技术也推动了
学位
随着网络技术飞速的发展,网络资源总量呈指数型增长,信息过载问题也愈演愈烈,面对如此海量且繁杂的数据,用户很难快速找出需要的信息,推荐系统能够有效缓解这一问题。个性化推荐系统通过各种数据挖掘技术解析用户的日志信息,给用户推送其偏爱的信息。推荐领域里推荐算法设计的好坏很大程度上决定了推荐性能的高低和用户的使用感受,因此对推荐算法的研究与改进有重要的意义。在多种个性化推荐算法里,二部图网络结构的推荐算法
学位
目前,心血管疾病是我国患病人数最多的一种病症,其死亡率在全国居民患病类型中处于首位。心音信号中含有表征心脏功能的特征信息,可用于心血管疾病的预防与诊断。本文从原始心音信号进行分析,利用心音信号的时频特征,以心音降噪与心音分类为主要内容进行研究,主要工作与贡献如下。(1)在心音降噪方面提出了一种基于CEEMDAN与最优小波的心音降噪方法。针对小波去噪中高频有效信息丢失问题,引入了CEEMDAN自适应
学位
高原地区气候恶劣、高寒、缺氧,隧道施工安全风险大,施工安全事故发生率高,易造成巨大经济损失和严重人员伤亡。为了避免高原隧道项目建设施工安全事故的发生,确保施工作业安全,对高原隧道项目建设阶段存在的安全风险问题进行评价及管理研究迫在眉睫。鉴于目前尚无全面、科学、可行的高原隧道施工安全风险评价体系,亦无具有较强科学性和针对性的高原隧道施工安全风险控制方法,文章通过对高原隧道施工安全风险评价指标体系及模
学位
近年来,新型二维纳米材料在多个领域展现出越来越大的应用潜力。石墨烯因拥有很高的载流子转移速率、优异的导热导电等特性,而深受广大研究学者的青睐;但由于石墨烯的光吸收率较低且禁带宽度为零,这限制了其在光电子器件领域的进一步应用。与石墨烯相比,二维过渡金属硫族化合物(TMDCs)拥有较宽的带隙,在实验和理论研究上都表现出了良好的物理特性。二硒化钨(WSe2)作为TMDCs中带隙相对较大的重要成员,其是首
学位
近年来,随着计算机网络技术、数据存储技术的迅猛发展,各行业数据量都呈现爆发式的增长,我们进入了大数据时代。如何高效处理这些海量数据,并从中挖掘潜在价值信息,是近年来一直热议的话题,而数据挖掘技术成为人们探讨解决此话题的主流方向。分类算法是常用的数据挖掘技术之一,在分类算法中,支持向量机(Support Vector Machine,SVM)由于具有良好的泛化能力、很好的克服维数灾难以及非线性解决问
学位