轻量级人体检测与行为识别算法的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:diaolan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体检测是当前机器学习领域研究的热点,该技术在虚拟现实、自动驾驶等领域有非常重要的意义。随着深度学习的快速发展,人体检测技术已经取得了不错的进展。但当前人体检测算法在复杂场景下仍然面临目标多尺寸、遮挡等问题,检测精度和速度往往顾此失彼,使得该技术在现实应用时受到一定约束。此外,智能安防、人机交互等领域迫切需要对人体提取更高级的语义信息,即人体行为识别。人体行为与人体姿态联系紧密,尽管基于人体姿态的行为识别已经有不少研究成果被提出,但现有的算法总将两者分开处理,算法的复杂性较高。针对上述问题,本文在人体检测与行为识别领域进行更深入地研究。具体工作主要包括以下几点:1、针对当前轻量级网络的通用性不强、鲁棒性不高的问题,本文基于Res Nets设计了一种轻量级网络Limit Net,并使用网络op融合的方法在推理阶段对模型加速。该网络在三种测试集下的性能表现比当前常用的轻量级网络更突出,并且将Limit Net应用到人体检测与行为识别领域也能表现出突出的性能。2、在人体检测技术的研究中,针对现有的算法精度和速度失衡的问题,在Center Net的基础上提出Refine_Center Net,主要在上采样模块和预测模块上进行改进。在上采样模块中设计了一种基于注意力机制的特征融合模块来对浅层特征和深层特征进行融合,改进后的算法在小尺寸目标上的AP提高了2%。在预测模块,设计了一种多阶段预测模型——先用输入图像尺寸下采样8倍的Feature map作为预测分支对网络优化,然后将下采样4倍的Feature map作为分支预测对网络进行微调。最终算法在测试数据集上的AP有显著提升,且推理延时没有明显增加。3、在人体行为识别算法的研究中,本文设计了一种多任务网络模型,可以同时进行人体行为识别与姿态估计两种任务。其中在姿态估计中,提出S-Soft-Argmax方法直接从heatmap中回归对应的人体坐标,使得模型可以端到端地训练,提升姿态估计的准确率。在行为识别模块,基于姿态与外观特征,设计一种自适应特征加权的方法对两者进行融合,进一步提升了模型的准确率。该模型在Penn action数据集中能够达到了96%的识别精度,且推理时延只有60ms。本文在人体检测与行为识别的深入研究中,对算法的各个模块都进行了大量的性能对比实验。整体的检测算法与行为识别算法不仅能够达到高准确率,而且在1080TI下总体时延只有67ms,在现有算法中很有竞争力。
其他文献
在当代,医学成像主要依赖高科技成像设备,医生主要通过医学图像,对病人进行疾病的诊断。因此对医学图像进行超分辨率重建,提升医学图像的分辨率具有重要的现实意义。本文聚焦于医学图像领域,应用深度学习的技术,对医学CT图像进行超分辨率重建,旨在提高CT医疗图像的重建像素质量,辅助医生进行病变目标的检测,减少漏诊和误诊的概率。医学影像受困于成像原理,成像设备,以及病人安全等硬件条件的限制,图像分辨率往往不如
随着移动互联网的快速发展,导航系统被广泛地应用于日常生活之中。现有的导航应用程序大部分提供的是逐步导航技术,其主要来自基础道路的网络拓扑信息,因此逐步导航被认为是将物理世界中的度量简化为简单口语描述的工具(例如距离、时间、转向等信息)。这种导航描述方式忽略了人们对地理空间的固有认知,对于那些了解城市布局的司机来说,往往是冗长和复杂的。这样不仅使得驾驶员对导航描述更为模糊,还占用了大量的终端资源。而
图像语义分割作为计算机视觉领域的一个像素粒度核心研究问题,其目标是为输入图像的每一个像素预测一个预先定义的语义类别。图像语义分割作为当前诸多领域的关注重点,对医疗诊断、机器人感知、自动驾驶、视频监控、增强现实等真实应用领域的发展可以提供强有力的支持。当前的图像语义分割模型要想获得足够的分割精度需要大量带像素级标注的样本进行模型的训练。然而由于像素级标注的获取需要耗费大量的人力成本,这导致所需样本不
图像分类识别已经成为了人工智能领域一个重要的组成部分,是人们当下研究的热点话题。卷积神经网络是图像分类识别中的一项关键技术,被大规模应用于GPU、CPU等多种不同平台上。为了满足不同的部署需求,尤其是在嵌入式移动端中,需要综合考虑功耗体积等因素,CPU或GPU便无法胜任这样的工作。而FPGA凭借着高性能、低功耗的特点,成为了卷积神经网络硬件加速的一个重要选择。本文基于FPGA实现了一个卷积神经网络
随着人工智能的蓬勃发展,深度神经网络在图像分类,自动驾驶,场景监控,医疗健康等领域都得到了广泛的应用。在深度神经网络取得巨大成功的同时,其安全性问题也越来越受人关注,当前大量研究表明神经网络易受对抗样本攻击,以图像识别为例,通过在原始图像上添加一些人眼不可识别的微小扰动就能让模型无法正确运作。在人工智能越来越频繁地运用在需要高安全性应用的时代,对抗样本的存在无疑会成为人工智能发展的一大阻碍,因此研
近十余年来,以深度神经网络为主的机器学习技术取得了长足的进步,这得益于高性能计算软硬件和实际应用的不断发展。现如今已有大量组织和企业提供基于机器学习系统向大众提供服务,例如面部、语音识别、照片优化等等。深度神经网络对算力的需求也不同以往,因此对分布式神经网络系统的需求也逐渐增加。另一方面,在边缘计算应用的不断深入,云端、边缘和终端的分层网络日渐成熟,这带来了更丰富的数据来源、计算设备、应用需求和隐
无人驾驶系统是一个非常庞大,复杂的各种高级模块组成的综合性系统,在满足基本驾驶功能的同时,更重要的是作为智能系统,需要和人类进行交互,分析人类的驾驶意图,将人类意图结合到驾驶策略中。同时,为了能够更加安全的确保驾驶过程的安全以及驾驶意图的正确执行,智能驾驶系统需要能够感知并分析驾驶员/乘客的状态,从而确保命令的正确下达与驾驶过程的相对安全,因此本文从两方面出发建立基于深度学习的驾驶决策分析系统,一
近年来,深度学习在许多领域得到了广泛的应用,也有许多针对多任务的深度模型。多任务学习在建模的过程中,既需要考虑任务之间的差别,避免负向的增长,又需要考虑到任务之间的共同之处。多任务学习的优势也正在于此。在现实世界中的有些任务间存在千丝万缕的联系,分解成多个子任务去独立求解是不正确的。而在实际的任务中,通过更多任务的辅助或者对照,可以帮助关注到最重要的特征,提升泛化性,提高性能。但基于深度学习的多任
随着人工智能技术不断发展,当今社会,语音不仅仅是人类之间通信交流的手段,也成为人机交互的重要桥梁。近年来,语音识别技术发展飞速,开始逐渐应用到各个领域。深度学习的加入,使得语音识别的准确率有了质的飞跃,但是伴随而来的是网络模型越来越大,难以在嵌入式设备上移植和使用。而且语音数据存在一定的隐私性,存在收集困难的问题。并且在实际的语音场景中,总是存在各种噪音,包括但不限于环境噪声、设备噪声、发动机噪声
近年来,随着深度学习和计算机技术的快速发展,图像分类技术已逐渐趋于成熟,其应用在日常生活中的各个领域也十分常见。然而,细粒度图像分类作为图像分类的重要的一个分支,相较而言更具有挑战性,还需要进一步发展。普通图像分类一般是区分不同的大类,不同类型图像之间的差异较大;而细粒度图像分类需要在同一个大的类型下区分不同的子类型。因此,细粒度图像不同子类之间的差异很小,具有类间方差较小而类内方差较大的特性。其