【摘 要】
:
人体行为识别在智能视频监控、人机交互和智能驾驶行为识别等领域都有着广泛的应用。然而,当前的人体行为识别准确率还不尽如人意。本文针对行为识别中存在的部分遮挡、数据噪声、视角变化和数据量有限等问题,对基于时空特征的行为识别展开研究,主要的创新性工作包括以下三方面。第一,本文以几何代数为数学工具挖掘视频时空相关性,提出了一种基于联合视频表观与运动信息的时空兴趣点的视频行为识别算法。具体地,首先构建一个视
论文部分内容阅读
人体行为识别在智能视频监控、人机交互和智能驾驶行为识别等领域都有着广泛的应用。然而,当前的人体行为识别准确率还不尽如人意。本文针对行为识别中存在的部分遮挡、数据噪声、视角变化和数据量有限等问题,对基于时空特征的行为识别展开研究,主要的创新性工作包括以下三方面。第一,本文以几何代数为数学工具挖掘视频时空相关性,提出了一种基于联合视频表观与运动信息的时空兴趣点的视频行为识别算法。具体地,首先构建一个视频时空域几何代数空间,然后提出了一种联合视频表观与运动信息的视频表征模型,接着基于该模型发展了一种视频时空域相关性约束下的时空兴趣点检测算法,用于描述视频的时空邻域结构,最后将其应用于视频行为识别中。实验结果表明,相比于传统的时空兴趣点检测算法,本文检测得到的时空兴趣点充分地反映了视频表观与运动信息在时空域各梯度方向上的显著变化,并去除了大量与人体行为无关的冗余信息,同时对于视频中的部分遮挡和数据噪声具有较强的鲁棒性,可有效地提升视频行为识别的准确率。第二,本文以几何代数为数学工具挖掘骨架序列的几何特性,提出一种基于时空视角不变的形态与运动表征的骨架行为识别算法。具体来说,首先构建一个骨架序列几何代数空间,然后提出了一种基于旋转子的骨架序列视角变换方法,接着构建了骨架序列时空视角不变模型。进一步地,基于该模型提取骨架序列的形态与运动表征,以时空融合的方式对骨架序列的全局时空特征进行描述。最后将由骨架序列形态与运动表征编码形成的彩色图片输入一个可选择的多通道卷积神经网络,并输出骨架序列对应的行为识别结果。实验结果表明,本文提出的算法既消除了骨架序列的多视角差异性,又保留了帧间的相对旋转运动信息,提取得到的骨架序列形态与运动表征相互补充且具有视角不变性,有效地提升了骨架行为识别的准确率。第三,本文提出了一种基于时空注意力与运动增强的骨架行为识别深度网络。具体地,首先分别提出一种运动信息引导的通道注意力模型和一种时空注意力模型,然后将它们进行结合进而构造出局部与全局注意力网络,以时空注意力融合的方式提取骨架序列中涉及长距离依赖关系的深度全局时空特征。此外,为解决由于稀疏的骨架数据导致的类内差异性,提出了一种骨架特征演化图编码方法,有效地丰富了骨架序列特征。实验结果表明,本文设计的深度网络不仅能够捕捉骨架序列的帧间运动信息,又能够捕捉时空上下文感知协同信息,取得了现有最先进的骨架行为识别准确率。
其他文献
随着计算机技术和互联网的发展,视频正成为人们获取和交流信息的主要载体,其中视频监控越来越成为社会发展和人们生活不可或缺的一部分,如何使用计算机技术进行视频中的人类行为分析识别成为近年来的研究热点。本文在以光流信号为运动信息表征的传统双流卷积神经网络的基础上,提出以帧间差分图像序列作为时间流网络输入,运用Res Net-18网络结构建立双流网络模型实现视频中人体行为识别的方法。并对传统双流网络的数据
由于二维码独特的光学可见性,容易受到非法复制(Illegitimately-Copying,IC)的攻击。IC攻击不仅阻碍了二维码的推广使用,也对商家和用户造成了不可避免的经济损失。早期的防复制二维码主要利用特殊打印材料或特殊打印技术来设计的,导致了以下缺陷:生产成本高和通用性低。最近,有研究者通过分析非法信道特性,提出了新的防复制二维码,比如2LQR二维码(Two-Level QR Code)和
计算机视觉技术的快速发展为海量监控数据提供了多种自动化分析解决方案,就行人信息而言,现有的解决方案多是专注于目标检测、目标跟踪等低层算法,因此行人信息的分析方法仍待向中高层算法方向继续深入研究。由于行人的特性可通过年龄、性别、携带物等属性来推断,行人未来的意图能通过当前时刻的具体行为来预测,因此研究行人属性识别与行人异常行为分析对智慧安防等领域有着重要的意义。为了在真实监控场景下能更加鲁棒地提取出
新媒介消解了群体参与新兴文化塑造的壁垒,拓展了对日常现象的反思维度。其中,电子游戏作为新兴文化产业的翘楚,以惊人的爆发力迅速成为当下的潮流文化之一。但国内对其看法较为片面和保守,尤其是对电子游戏内涉及到暴力和死亡的场景,人们多表现出反感或排斥的态度。的确,不论是游戏结束(game over)或是所扮演的游戏内角色死去,“死亡”都是大部分电子游戏作品所无法回避的,但在角色扮演类电子游戏中,玩家可以通
深度卷积神经网络是计算机视觉领域非常有效的方法。海量增长的图像数据和日益普及的智能设备都要求快速、准确地理解图像的内容,并自动分割识别出图像中的目标物体。图像分割的任务是在给定的图像中检测出是否包含某类目标物体,并标注出图像中每个像素所属的对象类别,描绘出每个物体的边界,最终获得一幅具有像素语义标注的分割图。图像中目标物体的检测与分割对于计算机视觉的发展具有十分重要的意义,在实际的工程应用中也具有
卷积神经网络(Convolutional Neural Networks,CNN)以其强大的特征提取和表达能力,在计算机视觉任务中得到了广泛地应用。然而,由于CNN主要是利用局部感知特性进行特征提取,导致其全局感知能力较差,进而影响了提取特征的鲁棒性。近些年来,注意机制以其有效的全局感知特性,被成功地应用在自然语言处理和计算机视觉等领域。因此,如何将CNN的局部感知特性和注意机制的全局感知特性有效
多摄像头多目标跟踪应用于自动驾驶、视频监控等多个领域,是当前学术界和工业界共同关注的热点。在复杂背景条件和目标遮挡等情况下,如何实现多个目标在多个摄像头下进行实时有效地跟踪,是一个具有挑战的问题。为了进一步提升跟踪鲁棒性和算法效率,本文就多目标跟踪中的姿态估计及其并行加速算法,跟踪中基于姿态的数据关联、多摄像头多目标中的轨迹特征设计与关联等问题展开研究。首先,提出了一种基于CUDA的并行多人姿态估
随着科技的发展,数字图像处理与计算机视觉在人们的生活中扮演的角色越来越重要。数字图像中包含着庞大的信息量,不同类型的图像内容混杂在一起,图像结构纹理分解技术可以根据图像不同内容的不同特点,将图像分解为包含主要信息量、决定人类对图像内容主观认知的结构分量,与包含主要细节、不影响人类对图像内容主观认知的纹理分量。图像结构纹理分解的相关研究已经持续了很多年,主要的挑战在于,一幅图像的结构分量与纹理分量是
随着大数据和人工智能的发展,人们可以通过网络搜索引擎、爬虫软件和纹理数据集获取大量的纹理样图素材。理想的纹理样图能够为艺术家提供丰富的创作灵感,为三维物体表面贴上栩栩如生的纹理材质,为纹理合成提供高质量的输入纹理样图等。然而,传统的纹理样图获取方式大多依赖人工的拍摄、裁剪和挑选,需要消耗大量的人力物力,同时也需要具备纹理相关的知识,这使得让计算机代替人工提取纹理样图的需求变得越来越迫切。大多数对纹
随着世界各国政府和企业对物联网(The Internet of Things,Io T)行业的大力支持和投入,物联网产业被急速地催生。本论文主要在传统物联网的基础上,对低功耗广域网(Low Power Wide Area Network,LPWAN)技术和Lo Ra(Long Range)技术进行研究分析,结合边缘计算,设计并实现一套基于Lo Ra的智慧物联网系统,解决了传统物联网应用远距离和低功