基于深度学习的室内场景人员检测方法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:ad2003happy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,每天产生大量的图片和视频数据,计算机视觉作为对图片进行处理的计算机技术,越来越多的被应用到日常生活中来,如目标识别,目标检测,语义分割和目标追踪等。而随着计算机技术的发展,尤其并行计算,高性能计算和GPU技术的发展,计算机视觉近年来得到迅速的发展。目标检测作为计算机视觉中最基本的问题,更是取得了突破性进展,由于其重要性以及性能的提升,增加了越来越多的对计算机视觉的需求,如活动识别,自动驾驶,智能监控系统、军事目标检测及医学导航手术中手术器械定位等,而这增长的需求又同时催生了目标检测的技术发展。针对目标检测领域,本文的工作聚焦在室内场景人员检测,主要基于深度学习方法。本文探索了在有监督数据的情况下,基于深度学习的人员检测,包括基于深度网络和递归网络的室内场景人员检测和基于区域特征和局部特征融合的人员检测。同时还探索了在大数据时代,在无监督或者弱监督的情况下,如何进行人员检测,提出了一个基于视频的弱监督的人员检测方法。因此,本文的工作主要概括为以下三个方面:(1)使用了一种基于卷积网络和递归网络的室内场景人员检测方法。由于室内场景的光线,人员尺寸,外表等的变化,本文使用一个深度卷积网络来提取场景内的目标特征,然后将其进行编码成深度特征,最后使用递归神经网络来解码深度特征成目标框。具体而言,本文先将图片变成一个网格,每个网格是一个1024维的向量,每个向量对应输入图片的的一个区域。这1024维的向量编码了相应输入区域的特征,携带了丰富的信息如目标的位置信息。LSTM单元从这个表示向量获取信息,然后作为一个解码器来解码区域特征。对于递归网络解码的每一步,LSTM单元输出一个新的包围框和相应的分数,前一个没有预测的人会在当前步骤输出。同时包围框的分数鼓励以递减的序列产生。当某个LSTM输出的分数低于某个阀值的时候,停止信号产生。最后收集输出结果并作为这个区域内多个实例的最终预测结果。该方法在室内场景有标签的情况下,可以获得很高的检测精度,同时也有很好的检测速度。(2)提出了基于区域特征和局部特征融合的人员检测方法。本节针对室内场景进行人员检测,尤其对稠密场景下的人头进行检测。在稠密场景中检测人头是一个很困难的任务,由于衣服和外表的大幅度变化,人的小尺寸以及一些很强的遮挡。传统的自底向上提框方法和区域提框网络或者召回率低或者精度不高。在这篇文章中,本文通过集成局部头部信息到区域提框模型中,同时提高了人头检测的召回率和精度。本文首先使用一个区域回归网络来预测一个区域内多个人头实例的包围框和相应框的分数,然后使用这些包围框来训练一个局部人头分类器,最后提出一个自适应的融合方法来组合每个候选包围框的区域和局部分数,从而得到一个更精确的包围框分数。本文的融合方法可以自动的从数据中学习最优的超参数,同时本文的算法在一个稠密数据集上取得了很好的效果,检测精度明显超出当前同类最好的方法。(3)提出了一种基于视频的无监督室内场景人员检测方法。虽然在有标签的情况下,人员检测的性能能够达到比较高的水平,但是标签数据往往很难获得,同时数据又不断的更新,因此基于无监督或者弱监督的人员检测方法就十分重要,而这方面相关工作不是很多。因此,本文针对室内场景数据,介绍了一种基于视频的弱监督人员检测检测方法。由于本文关注的室内场景人员检测,因此实际上只需要给定包含人的视频,本文的方法可以自动的学习一个针对该场景的人员检测模型。本文的方法包含两个过程,训练过程和测试过程。训练过程包含多个阶段,其主要包含:1)基于高斯混合模型的前景提取;2)基于聚类算法的前景实例划分;3)基于伪标签的模型训练。而一旦在训练阶段学习到目标检测模型,测试过程只需要输入测试图片,然后端到端的输出检测结果,因此测试是非常方便的。
其他文献
本文面向RoboCup中型组足球机器人比赛,根据比赛对机器人系统提出的更高要求,在国防科技大学NuBot机器人团队五代足球机器人的技术积累上,设计了第六代NuBot足球机器人系统,
在日地空间物理的研究中,极光是唯一可以通过肉眼观察到的地球物理现象。合理的极光形态分类对研究各类极光现象与地球磁层动力学过程之间的关系十分重要。随着我国极区高空
随着信息技术的飞速发展与广泛应用,Internet中产生了巨量的文本信息。如何从这些文本信息中提取出有用的信息是目前国内外研究人员重点关注的课题之一。关系提取是信息提取
近年来,随机非线性互联系统因其复杂的属性及其在实际工程中广泛的应用,使得该类系统一直都是控制领域中一个热门的研究课题。虽然吸引了国内外学者的关注和研究兴趣,但随机
随着新兴的网络视频相关服务和设备的兴起,例如视频共享、视频广播、广告和视频推荐等,网络视频的数量急剧增长。越来越多的用户参与到视频相关的活动中,包括上传和下载视频,
随着信息技术的高速发展,图像作为一种描述目标物体十分形象有力的表达方式,慢慢变成从业者获取信息、分析信息和利用信息的重要手段。经过这些年的发展,深度学习方法取得了
通常信号的相位和振幅信息是研究人员判断正确信号的重要依据,但在衍射成像等领域下,一般光学监测设备仅能测得图像的傅里叶变换的振幅信息,往往还被噪声所污染,这就影响了研
近几十年来,网络控制系统(NCSs)在控制和通信科学领域受到了广泛的关注和重视。所谓网络控制系统,即系统装置信息和控制器信号通过数字化、智能化的网络通信通道进行传输的闭
面对新一代移动互联网的浪潮,电信运营商的竞争和挑战前所未有。提供客户的新服务竞争力将成为运营商生存的关键。电信客服平台作为海量的客户接触部门,其海量的数据中蕴藏着
在生物学领域,识别microRNA(miRNA)与疾病之间的关联性对于临床医疗具有极其重要的意义,因此构建miRNA与疾病关联网络受到生物科学界越来越大的关注.然而,现今在这方面的研究