基于卷积神经网络的大规模人群计数和定位方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:kency2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
世界范围内,随着城市化进程的加快,城市居民数量剧烈增加,大规模人群聚集的场景也愈发常见。这些场景中会存在较多安全隐患,容易引发公共安全事件。为了防止安全事件的发生,基于计算机视觉的视频监控系统被广泛应用在城市内部的各个公共场所,实时监控和分析各场所中的人群信息。作为视频监控系统的两项基本任务,大规模人群计数和人群定位也随之在公共安全领域发挥了重要作用,受到了学术界的广泛关注。随着卷积神经网络技术的逐步成熟,现有的人群计数和定位方法已经从应对单一的人群场景过渡到应对相对密集的人群场景。但是在一些环境复杂的场景中,受到人群尺度变化问题和复杂背景问题的影响,现有的这些方法仍无法取得最佳性能。因此本文的目标是应对复杂场景中的尺度变化问题和复杂背景问题,实现大规模人群精确计数和定位。基于这个目标,本文首先对人群计数进行了深入研究,并提出了一种基于多尺度注意力重校准网络的人群计数模型。此外,考虑到单一的人群计数方法只能分析人群场景中不同区域的人群分布情况,无法提供人群的具体位置信息。本文在人群计数的研究基础上,对人群定位展开了进一步的研究,并针对由尺度变化引起的场景边缘个体较小的问题,提出了一种基于多尺度特征细化网络的人群定位模型。因此本文的主要创新工作可总结如下:(1)本文提出一种用于人群计数的多尺度注意力重校准网络,它引入一种特征增强模块和一种特征重校准模块分别应对尺度变化问题和复杂背景问题。首先特征增强模块利用多个扩张卷积进行多尺度特征增强,为后续操作提供丰富的多尺度上下文信息。之后,特征重校准模块集成了维度注意力块和区域重校准块进一步抑制上下文特征中的背景信息。其中,维度注意力块可以捕捉到上下文信息在不同维度之间的语义依赖关系,而区域重校准块则根据依赖关系对不同区域重新分配注意力权重,进一步抑制背景区域在上下文特征中的注意力权重。通过结合使用以上两个模块,本文提出的人群计数方法可以有针对性地捕捉人群图像中的人群特征,准确估计人群密度。在多个公开人群计数数据集上进行的一系列实验显示,本文提出的人群计数方法在计数精度和生成密度图的质量方面明显优于现有的计数方法。(2)本文提出一种用于人群定位的多尺度特征细化网络,它采用三个分支充分提取人群场景在不同尺度上的上下文特征,准确捕捉人群场景中每个个体的信息。具体而言,本方法首先引入一种特征感知模块,它串联了多个不同的扩张卷积,可以在不同尺度上编码更大范围的上下文信息,进一步提高本方法应对尺度变化的鲁棒性。之后,本方法设计了一种特征细化模块促进每个分支之间的上下文信息相互细化,从而可以在最大程度上发挥多尺度上下文信息的表达能力,有效抑制复杂的背景信息。通过结合使用上述两个模块,本文提出的人群定位方法可以在最大程度上定位到场景中的每个个体,更稳健地应对各种复杂的人群场景。在多个人群定位数据集上进行的大量实验显示,本文提出的人群定位方法显著优于现有的方法,具有更先进的定位性能。
其他文献
随着城镇基础设施的完善,公共场所也逐渐增多。因此,公共场所内的群体安全问题也逐渐受到人们的重视。当意外情况发生时,处于危险中的人群在缺乏正确引导的情况下可能会产生严重的恐慌情绪,在盲目的逃生中相互拥挤进而引发踩踏事故会造成重大伤亡。因此,如何在意外情况下减小踩踏事故的发生概率是一个亟需解决的问题。计算机仿真技术可以模拟疏散过程并为意外情况下的人群疏散提供决策支持。因此,人群疏散仿真技术在解决紧急情
学位
癫痫是由大脑中枢神经元异常放电引起的神经系统疾病。当癫痫发作时,病人会突然失去意识并全身抽搐,若不及时采取抢救措施,则会危及生命。随着医疗设备的进步与机器学习的快速发展,基于脑电图(Electroencephalogram,EEG)的癫痫自动检测方案逐渐替代了传统的人工诊断。最新的神经医学研究表明,大脑不同区域之间存在着相互影响机制。现有的癫痫检测算法考虑了多通道脑电信号时间维度层面的特征,但忽略
学位
由于在军事、航天、农业、工业等领域的重要应用,自动化和智能化的控制理论一直受到各国的广泛重视。然而,随着各行各业对控制系统性能要求的不断提高,传统的线性反馈控制已经很难满足各种实际的控制需求,其原因是大多数实际控制系统本质上是非线性的,例如质量-弹簧-阻尼器系统,航空航天系统,机器人系统等。另外,许多实时应用平台需要严格的时间调度来限制控件的响应时间,例如一个机器人必须在每一个指定的时间内到达一个
学位
在信息化时代,数据信息呈现出爆炸式增长的趋势,进而产生了具有多种特征描述的多视图数据。面对海量数据,如何有效的将数据按照相似性进行分类以减少数据的杂乱程度,以便更好的帮助学者分析和利用数据的潜在价值显得尤为重要。多视图聚类方法能够从不同的角度描述数据的特征,有效揭示数据的内部结构,通常具有比单视图聚类方法更优的聚类性能,因此其在多视图数据分析中的应用越来越广泛。目前,子空间聚类在处理多视图数据聚类
学位
随着深度学习技术的不断发展,卷积神经网络被广泛应用于很多科研领域,深度学习技术已成为解决计算机视觉领域问题的有效手段之一。当前,目标检测在智能视频监控、机器人导航、航空航天等领域中发挥着较大的作用,被研究者广泛关注。大数据时代的到来,数据量呈指数级增加,同时图形处理器(GPU)等硬件设施的更新迭代带动了目标检测算法的快速发展。Logo检测作为目标检测的一个分支,从图像中检测出Logo是确定品牌最具
学位
伴随机器视觉技术在农机装备、智慧农业等领域中的不断创新,农业基础与核心技术也在随之快速夯实与突破,加速推动农业的自动化与智能化进程。其中,目标果实的精准、高效识别在智能采摘、生长监测、产量预估等农业生产环节中扮演着重要角色,是实现农业自动化作业的基本保障。然而在自然环境下,果园呈现复杂化、非结构化等特点,非常规姿态果实、多光照环境、多角度机位采集等因素均制约着果实的识别效果,绿色果实受同色系枝叶背
学位
近年来,图像语义分割已经广泛应用在诸多领域,随着软硬件的升级和应用的扩展,对于分割精度的要求越来越高。室内场景呈现出环境多变、光照不均、物体间关系复杂等特点,仅仅依赖包含颜色信息的RGB图像难以对室内场景进行精准分割。采集室内场景的RGB-D图像,引入深度图像的空间信息,作为RGB图像的互补信息,可以有效改善物体易受复杂环境干扰的问题,提升语义分割的精度。其中RGB图像用以描述物体的颜色信息,深度
学位
随着多媒体技术的蓬勃发展以及电子设备的普及,使用扫描仪、手机、相机、监控、行车记录仪等设备获取的文本图像的数量迎来爆炸式增长。如何精准地识别图像中的文本已经成为重要的研究课题。文本识别技术主要对扫描文档图像和场景文本图像进行识别。近年来,基于深度学习的场景文本识别技术取得了巨大的进步,能够同时应对扫描文档和场景文本的识别。然而,在反光的交通指示牌、磨损的路面标识、污损的集装箱编号、被印章遮盖的文件
学位
在人口老龄化趋势日益加剧及老年人对高质量养老生活的需求日益增长的背景下,老年人对酒店的产品及服务提出了特殊要求,但我国酒店业现有的产品及服务无法满足日益旺盛的老年群体消费需求。通过问卷调查、深度访谈等研究方法调查酒店业老年消费群体需求以及酒店适老化产品供给情况,能够在供给侧结构性改革的视角下提出相应建议,探索酒店的适老化发展策略,为酒店业的创新发展提供参考。
期刊
网络控制系统的概念最早由G.C.Walsh提出,通常是指传感器、控制器、执行器和通信网络在一定区域内的集合。随着网络的加入,使得控制系统中传感器与控制器间以及控制器与执行器的通信往往会产生丢包或者数据延迟现象,从而恶化系统性能,甚至导致系统的不稳定,因此,越来越多的控制学者致力于设计更加优化的估计器用于解决含丢包或者含时滞系统的未知输入及状态同时估计问题。本文将进一步提出有效的技术和理论分析方案,
学位