基于运动学描述子和深度学习的行为识别新框架

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:eddiew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频序列中的人体行为识别作为机器学习领域的热点和难点之一,已经引起了认知科学、生物学以及计算机科学等各个学科的广泛关注,同时,已成功应用于视频监控、零售分析和医疗诊断等各个行业。目前,简单场景和摄像机固定条件下的行为识别已经取得了相当好的性能。然而,对于从电影、电视和其他媒体平台上收集得到的真实视频,识别准确率还远远没有达到期望的要求。这是因为真实场景下的行为视频中通常存在着巨大的类内差异性和类间相似性,以及大量复杂背景。因此,如何设计有效的特征表示对于视频中的行为识别是至关重要的。本文在充分分析和学习现有方法的基础上,构建了一种基于运动学描述子和深度学习的行为识别新框架。(1)通过对视频光流场的动力学特性进行探索,构建了一组更具判别性的运动学场,包括:光流时空梯度场、散度场、旋度场、切变场、对称场以及非对称场。在此基础上,通过探索特征与其邻域信息之间的相关性,构建了一个新的运动学自相关描述子。该描述子能够很好地获取光流场的时空几何特性,具有较强的运动细节及运动空间描述能力。同时,通过探索底层运动学特征之间的关系,构建了一个新的运动学协方差描述子。该描述子具有很好的紧凑性和判别性,在实现特征降维的同时,显著增强了特征表示对于运动的表达能力。(2)通过引入一种多通道软注意力机制,构建了一种新的融合注意力机制的深度残差网络模型。该网络结构通过自动将较大的权重赋予对分类起决定性作用的局部图像区域,突出了视频帧中的判别特征,同时缓解了无关信息以及噪声产生的负面影响。在此基础上,针对视频级标签和帧级特征之间可能存在的不匹配问题,本文对视频进行分段和采样,并进一步将局部帧级特征进行整合以获取全局视频级特征,构建了一个新的深度静态描述子。该描述子能够准确地定位并获取视频中运动主体以及运动场景的表观信息。(3)通过联合两个运动学描述子以及深度静态描述子,本文构建了一个行为识别新框架。该新框架囊括了人工特征和深度特征的共同优势,能够同时准确地获取视频序列中的动态特性以及静态信息,因此实现了对视频数据全面且系统的建模。本文在UCF-Sports数据库和YouTube数据库上进行相关实验仿真,实验结果充分证明了本文行为识别新框架的有效性。
其他文献
软件测试对于检测软件开发和维护过程中的软件故障至关重要。软件测试的有效性主要由测试用例集的质量决定,高质量的测试用例集可以有效发现被测软件(SUT)的故障。另一方面在
随着我国各行各业近年来的蓬勃发展,各种工业控制系统在生产过程中得到了广泛的应用,但由于各企业建设时期的不同及采用标准规范的不统一,致使不同形式的各种工业控制系统之
随着人类社会的迅速发展,信道传输环境越来越复杂,信号传输过程中由于时间选择性衰落和频率选择性衰落的影响导致信号失真,通信系统的传输性能受到较大影响。因此需要分析信
近些年来,随着计算机视觉的发展,运动目标检测与跟踪技术在军事、交通、环境监控等领域得到了广泛的应用。基于摄像机固定条件下的运动目标检测与跟踪技术已经逐渐成熟。然而
由于科技的高速发展,生物数据正处于爆炸式增长的时代。从复杂、高维的生物数据中挖掘出有价值的信息对于研究问题的本质具有重要意义。特征选择是处理高维生物数据的一种有
基于单词共现模式,传统主题模型能够从长文本数据中提取高质量的主题信息。对于短文本数据,文档的长度较短,单词之间的共现性信息较少,导致传统主题模型并不能很好地工作,无
作为惯性导航系统的重要部件,液浮陀螺仪提供基准坐标系,其性能和精度直接影响系统的性能和应用精度水平,具有精度高、寿命长、可靠性高等优点,在航空、航天、航海等军民领域
国际汉语教育不同于国内的语文教学,汉语教师不仅要提高学生汉语水平,更承担着传播中国文化的重要使命。但由于跨文化教学的桎梏,目前对外汉语教学中语言教学与文化教学存在脱节现象,产生了重语言教学而轻文化教学的现象。本文以中国面食文化作为对泰汉语教学中文化教学的研究窗口,力图展示当前重视文化教学的必要性和复杂性,并分析当前汉语教学中文化教学所面临的困境。针对这种困境,本文以面食文化为切入点,整合已有的汉语
市场经济时代,创新是企业保持竞争力的核心和灵魂。在企业生存环境动态性不断加剧,产品生命周期不断缩短的背景下,破坏性创新作为一种颠覆性的创新方法为新兴企业赶超市场主
伴随着各类用户对超清影像,VR以及3D游戏等图形处理产品卓越性能的追求,人们对图形处理器性能的要求也逐步提高。GPU通常作为一种用于图像运算的微处理器用于PC、游戏机、工