基于尺度感知和注意力机制的密集人群计数方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:kevin7878
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
城市化进程的快速推进促使人们的生活方式逐渐变得丰富多彩,大量人群聚集在体育场、音乐会、商场等公共场所参加各类活动的现象愈发常见,这些场景中控制人群的规模尤其重要。此外,近几年,新冠肺炎疫情席卷全球,为防止疫情传播,各类公共场所更是对人群聚集的情形进行严格管控。因此,为保障公共场所内人群的安全,采用人群计数等手段对高密度场景的人群进行监测分析进而对人群进行及时有效地疏导具有非常重要的意义。近年来,人群计数领域中层出不穷的新方法和新模型推动着这个领域的稳步发展。但是在实际应用场景中,受监控设备拍摄位置不同、角度变化等因素的影响,场景中人群的尺度存在较大的差异,这对同时有效地提取不同尺度的人群特征造成一定的影响。另外,视频监控采集到的图像场景往往是复杂多样的,背景信息中存在与头部目标非常相似的物体,极易被误识别为密集的人群,准确地区分人群前景区域和背景区域也是一个需要急切解决的问题。因此,本文针对上述问题展开了相关研究,主要研究工作和创新点如下:(1)针对场景中人群头部尺度连续变化的问题,本文提出一种基于注意力机制的感知金字塔网络(Attention-based Aware Pyramid Network,AAPN)。该网络设计了感知金字塔模块(Aware Pyramid Module,APM),将输入特征图划分为不同大小的图像块,用于提取多个尺度上的特征,并将提取到的各个尺度上的特征进行融合。然后通过级联的方式将融合后的尺度特征与原始输入特征进行拼接,以此用于增强网络对于多尺度特征的整合能力。此外,网络还设计了空间注意力机制(Spatial Attention mechanism,SA)和通道注意力机制(Channel Attention mechanism,CA)。具体而言,SA通过对所有位置的特征进行加权并有选择性地聚合特定位置的特征,以处理全局上下文的特征信息,进而捕捉特征图中密度分布变化的细节。CA通过处理特征图中任意两个通道之间的映射关系,选择性地增强特征图中与人群信息相关的重要通道,同时抑制存在大量干扰背景信息的通道。通过在人群计数通用的公开数据集上进行充分的实验并表明,本文提出的方法不仅能在人群计数任务中显著地提高计数的准确性,增强网络的鲁棒性,也能更好地适应图像中头部尺度的连续变化。(2)针对复杂场景中背景杂乱的问题,本文提出了一种基于引导轴向注意力的多尺度聚合网络。该网络由两个关键模块组成:尺度感知上下文聚合模块(Scale-aware Context Aggregation Module,SCAM)和引导轴向注意力模块(Guided Axial-attention Module,GAM)。具体而言,SCAM通过紧密连接多个不同感受野的扩张卷积逐步聚合多样性的相关上下文特征信息。而且在不同的卷积层上执行这一操作,不仅在单尺度特征图上实现了多尺度特征信息的增强,还捕获了丰富的上下文信息。GAM将局部特征与它们对应的全局依赖关系集成在一起,通过注意力损失引导轴向注意机制忽略不相关的信息,并强调将注意力聚焦于图像中与人群目标有关的区域。这不仅有利于缓解杂乱背景对人群计数造成的干扰,还有效地降低了模型的计算复杂度。通过在具有挑战性的数据集上的实验表明,本文提出的方法不仅能提高计数的性能,同时能更好地适应各种不同的复杂场景。
其他文献
近年来,图像语义分割已经广泛应用在诸多领域,随着软硬件的升级和应用的扩展,对于分割精度的要求越来越高。室内场景呈现出环境多变、光照不均、物体间关系复杂等特点,仅仅依赖包含颜色信息的RGB图像难以对室内场景进行精准分割。采集室内场景的RGB-D图像,引入深度图像的空间信息,作为RGB图像的互补信息,可以有效改善物体易受复杂环境干扰的问题,提升语义分割的精度。其中RGB图像用以描述物体的颜色信息,深度
学位
随着多媒体技术的蓬勃发展以及电子设备的普及,使用扫描仪、手机、相机、监控、行车记录仪等设备获取的文本图像的数量迎来爆炸式增长。如何精准地识别图像中的文本已经成为重要的研究课题。文本识别技术主要对扫描文档图像和场景文本图像进行识别。近年来,基于深度学习的场景文本识别技术取得了巨大的进步,能够同时应对扫描文档和场景文本的识别。然而,在反光的交通指示牌、磨损的路面标识、污损的集装箱编号、被印章遮盖的文件
学位
在人口老龄化趋势日益加剧及老年人对高质量养老生活的需求日益增长的背景下,老年人对酒店的产品及服务提出了特殊要求,但我国酒店业现有的产品及服务无法满足日益旺盛的老年群体消费需求。通过问卷调查、深度访谈等研究方法调查酒店业老年消费群体需求以及酒店适老化产品供给情况,能够在供给侧结构性改革的视角下提出相应建议,探索酒店的适老化发展策略,为酒店业的创新发展提供参考。
期刊
网络控制系统的概念最早由G.C.Walsh提出,通常是指传感器、控制器、执行器和通信网络在一定区域内的集合。随着网络的加入,使得控制系统中传感器与控制器间以及控制器与执行器的通信往往会产生丢包或者数据延迟现象,从而恶化系统性能,甚至导致系统的不稳定,因此,越来越多的控制学者致力于设计更加优化的估计器用于解决含丢包或者含时滞系统的未知输入及状态同时估计问题。本文将进一步提出有效的技术和理论分析方案,
学位
世界范围内,随着城市化进程的加快,城市居民数量剧烈增加,大规模人群聚集的场景也愈发常见。这些场景中会存在较多安全隐患,容易引发公共安全事件。为了防止安全事件的发生,基于计算机视觉的视频监控系统被广泛应用在城市内部的各个公共场所,实时监控和分析各场所中的人群信息。作为视频监控系统的两项基本任务,大规模人群计数和人群定位也随之在公共安全领域发挥了重要作用,受到了学术界的广泛关注。随着卷积神经网络技术的
学位
近年来,伴随着多自主体系统的广泛应用以及协调合作控制问题的深入研究,学者们对趋同问题的研究也越来越关注。为了实现趋同,个体借助于传感网络或通信以交换共同感兴趣的信息,并利用控制协议来实现趋同。但由于网络带宽和通信信道的约束,时滞现象普遍存在于通信网络中,其不仅会降低系统的性能,甚至会破坏系统的稳定。因此研究带有延迟信息的多自主体系统的趋同受到广泛的关注。针对上述分析,本论文基于延迟的状态信息研究了
学位
在我国水果种植面积和产量逐年增长、农业劳动力短缺和国家大力倡导发展农业科技的背景下,迫切需要提升果园农机装备自动化、智能化水平。视觉系统是果园农机装备智能化升级的核心组成,其性能是实现果园早期测产和自动化采摘作业的基本保障。在复杂的果园环境下,构造目标果实的精准、高效分割算法已经成为视觉系统研究的关键。绿色果实颜色与背景枝叶颜色相近,容易对目标果实分割造成一定干扰,且在实际果园环境中,采集到的图像
学位
在线评论在电子商务中具有重要作用。不仅用户在购买产品之前需要查看相关的评论,而且在线评论也直接影响商家的声誉和盈利水平。随着电子商务的迅猛发展,虚假在线评论日益增多,严重地干扰了消费者的购物决策,污染了公平的电子商务环境。尽管已有大量的虚假评论检测方法,但是检测结果并不令人满意。首先,虚假评论的特征表示不够丰富,没有充分利用评论的多模态特征,而且缺乏检测结果可解释性;其次,评论数据集的正负样本不均
学位
随着科学技术和经济水平的发展,日常生活和工业制造变得越来越智能化,智能机器人在各个领域均得到了广泛应用。自主导航作为机器人领域的核心技术之一,具备很高的应用价值以及研究价值。近年来,相关学者提出了很多机器人导航方法,主要分为基于深度学习的方法和基于强化学习的方法。基于深度学习的方法依靠带有标签的数据进行训练,可以快速的找到一个稳定的导航策略,但是数据的收集和标记是极其耗时耗力的。基于强化学习的方法
学位
伴随着互联网技术的快速发展以及现代软件规模的不断复杂化,程序员面临着与日俱增的软件维护与开发负担。因此,为了提高软件开发的效率,程序理解技术应运而生。然而,在现有的程序理解技术大环境下,对程序特征进行多方面、多层次、多角度地分析来提取相关信息是一项极具挑战性的工作。目前,深度学习算法越来越多地被用来建立基于现有数据的深度神经网络,以探索隐藏在数据中的特征。程序理解需要从程序中提取与程序理解任务相关
学位