基于视频的轻量级人体行为识别算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qinyongj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别是机器人系统及计算机视觉领域的基本研究挑战之一,其研究内容是识别视频中的人体行为,对视频进行分类。基于视觉的人体行为识别技术有着重要的现实意义,在智能监控,自动驾驶,视频剪辑,基于互联网视频的内容检索与分类,以及人机交互,游戏娱乐等领域有着重要的应用价值。传统算法往往识别精度较低,实现复杂,且大多依赖手工特征,模型的普适性较差;深度学习的出现与普及在很大程度上解决了传统算法中存在的一系列问题,其端到端的自适应学习方式以及接近人类水平的识别精度使得该方法成为人体行为识别研究领域中的主流算法。但目前精度较高的深度学习算法往往模型复杂度较大,无法部署在低算力的移动设备当中满足实时性的应用需求,所以研究一个高精度低延迟的算法模型将对大规模应用人体行为识别技术产生重要意义。本文主要针对基于深度卷积神经网络的轻量级人体行为识别算法展开研究,内容如下:1.将二维图像领域的轻量级算法模型拓展到三维视频领域。综合研究了二维卷积和三维卷积在人体行为识别任务上的各自优势及不足,并对二者的融合模型展开探索,以降低网络模型复杂度。2.在模型结构的轻量化处理上做了大量的改进与创新。在原模型基础上引入时空可分离卷积和通道分片重排机制,大幅降低了模型参数量和计算量,同时维持了模型识别精度,提升了模型整体的识别性能。3.提出了一种更适合视频任务的轻量级视觉注意力模块。本文对多种轻量级注意力模块在算法模型中的作用展开研究,并提出一种新型轻量级注意力模块,进一步提升了网络性能。4.提出了一种新型高效的双路神经网络结构人体行为识别算法模型。本文基于本实验中得到的单路神经网络算法模型,提出了一种新型轻量级双路网络结构模型,使用两路卷积神经网络联合提取视频中的时空特征,在大幅简化模型结构、降低模型参数量和计算量的同时有着更高的识别性能。5.利用迁移学习技术大幅提升模型识别精度。本文将轻量级网络模型在更大规模视频人体行为识别数据集上预训练,并迁移至UCF101数据集的识别任务当中,在不增加模型复杂度的前提下大幅提升了模型识别精度。模型最终的人体行为识别准确率为63.2%,达到了接近和超过现有同等轻量级别算法模型的识别水平。
其他文献
在国家大力发展科技的背景下,光电子信息产业得到快速发展。微型光电子器件应用在人们生产生活的各个领域,因此对其微表面缺陷的检测控制有更迫切的需求。结构光检测技术因其相比于共聚焦显微镜或者白光干涉仪而言,具有成本低廉、易工业化的优势,在工业表面检测中发展迅速并占据重要位置。人们发现结构光技术的优势后,逐渐将其中的显微条纹投影技术和显微相位测量偏折术(显微Phase Measuring Deflecto
红外热成像系统隐蔽性高、抗干扰性好,对作用距离和外界环境的适应性强,在现代军事防御系统中占据着非常重要的地位,被广泛地应用于军事探测、预警、制导反导、航空航天等领域。对于注重隐蔽性,成像距离较远的应用场景,成像目标往往被称为红外弱小目标,信噪比低且面积很小,还缺乏颜色、纹理、形状等特征,给目标检测带来不小的困难。除了目标自身的特性,探测系统自身产生的热辐射和外部环境的多样性也进一步增大了红外弱小目
在计算机视觉和图像处理领域内,研究视频去雨算法具有越来越多的现实意义。在现实生活中,雨天等恶劣的天气下,雨线会遮挡一部分道路上行驶的情况,使得驾驶变得很困难并且十分危险;另外,犯罪现场重要位置拍摄的图像,因为雨线的遮挡,可能会模糊甚至弱化犯罪分子的行为;以及在交通事故中,无法认定肇事者的刑事责任。因此,从广义的角度来看,视频去雨对目标检测与识别,人工驾驶等技术的发展有十分重要的意义。在本文中,我们
射频识别(Radio Frequency Identification,RFID)是一种使用电磁信号进行非接触双向无线通信的技术。随着通信技术的不断发展,无线技术在人们的生活中被越来越广泛的使用,RFID技术在无线通信领域的地位也越来越高。目前工作在13.56MHz和900MHz的电子标签已经发展的较为成熟,工作在2.45GHz的RFID系统不能广泛应用的主要原因是其使用的电子标签价格过高不能批量
特发性肺纤维化(idiopathic pulmonary fibrosis,IPF)作为间质性肺部疾病(interstitial lung diseases,ILDs)的一种表现,具有初期隐匿性,中后期致死率高的特点。遗憾的是,目前IPF并无有效的治疗方案,因此早检查、早诊断、早治疗可以有效提高IPF患者的生存率。但是,人工诊断方式需要繁琐的步骤和丰富的临床经验,这要求医生具有丰沛的精力和优秀的专
在实际应用中,因为测试任务的复杂,测试领域对多功能模块化仪器的需求越来越大。目前国外对多功能模块化仪器的研究较为成熟,仪器功能丰富但价格昂贵,国内并未推出多功能模块化仪器。为打破进口垄断,实现国产化,在国内开展对多功能模块化仪器及其配套软件的研究十分必要。本文的研究目标是基于某型VXI总线多功能模拟信号测试模块进行软件设计。该模块集成了数字化仪、任意波发生器和频率计的测量功能,可应用于多功能联合测
当前主流的人体安检设备大多为金属探测门,但其仅能对人身携带的金属物品进行检测,而对其他非金属材质的物品检测能力不足。太赫兹无源成像技术采用无源的工作方式,被动地接收人体和隐蔽目标自身辐射的太赫兹频段电磁波来进行成像,对人体无辐射性危害。并且太赫兹频段电磁波对衣物等具有高穿透性,可以探检到隐藏在人体衣物内的各类危险物品,该技术在公共场所的人体安检设备中具有重要的应用前景和研究价值。本论文的研究依托于
随着人口老龄化的加剧,人们对老年人的健康监测技术提出了更高的要求。室内人体速度估计是老年人居家健康监测的关键,它可以提供人体的运动状态。现阶段,一些穿戴式设备或光学设备等都提供了高准确度的速度估计方法,但接触式设备的要求是繁琐的,而光学设备也存在只能视距监测、侵犯隐私等问题。因此,人们迫切需要一种非接触性和非视距性的速度监测方法。随着技术的发展,基于射频信号的无线感知技术得到了广泛关注。但是,由于
目前,随着互联网技术的快速发展及工业4.0的提出,未来的社会生活将会发生巨大的变化。目前5G技术的发展以及6G技术的提出让万物互联不仅仅只是期望而有望成为事实,而要实现万物互联,其中的一个关键技术突破点就在于人机交互新型传感器的开发。例如智能家居系统中如何感知人体的温度及人体的位置从而实现家居系统的智能调控,无人看护的老人如何感知判断自身的身体状况指标并上传到监控系统,仿生型机器人如何具有类似于人
图像语义分割旨在实现图像像素级区域分割与识别,是多媒体分析、计算机视觉等众多任务的基础步骤。由于存在类内的差异性、类间的相似性、以及背景的复杂性等干扰问题,图像语义分割是一个极具挑战的工作。传统分割方法立足于手工设计的低层特征,难以有效刻画对象的语义信息,导致分割性能不足。近期,基于深度学习的分割方法能够通过深度网络提取更具判别性的深度语义特征,有效改善了语义分割性能。然而,基于深度学习的图像分割