基于卷积神经网络和Transformer的人群计数研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:peterpan984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济社会快速发展,以人工智能为导向的智慧城市方兴未艾。人群计数研究作为人工智能领域的一个分支对智慧城市的推动是十分重要的。首先,随着世界人口的不断增长以及随之而来的城市化进程,人们在游行、音乐会和体育场等场合容易发生聚集现象,在这种情况下,人群计数对于公共安全和管控起着不可或缺的作用。其次,人群计数可以辅助构建人群场景中更高层次的任务,例如人群分析与跟踪,视频监控,异常检测,活动识别等。当前,人群计数任务面临着复杂的背景噪声、剧烈的尺度变化,严重的透视变换以及不同数据集的人群分布不同和密度变化等问题,严重降低了人群计数的准确度和模型的泛化性能。针对上述问题,许多研究者采用卷积神经网络(Convolution Neural Network,CNN)来训练模型,达到了不错的效果。另一方面,近年来,Transformer在各种计算机视觉任务中占据了主导地位,例如目标检测,图像分类,分割,去噪,超分等。本文主要从CNN和Transformer两种网络方面展开研究以探索其对人群计数精度的影响。本文主要工作包括以下四点:(1)提出了一个基于CNN的混合注意网络HANet(Hybrid attention network based on progressive embedding scale-context for crowd counting)。该网络包括多个级联的混合注意模块,可以有效地抑制背景噪声。此外,通过渐进学习策略,在不同的混合注意模块中嵌入了不同尺度的人群上下文信息,使得模型在抑制背景噪声的同时可以适应人头大小的尺度变化。最后,对渐进学习策略进行了定量分析,选择从全局到局部的融合方式以得到更准确的计数精度。(2)提出了一个基于Transformer的层级特征聚集网络TCCNet(Transformer-based hierarchical feature aggregation network for crowd counting)。不同于CNN,Transformer将输入图片划分为一系列的patch作为模型的输入,可以充分建模全局上下文和远距离依赖,利用全局上下文信息更好地提升人群计数性能。考虑到MSE损失函数不是十分适用于Transformer所学特征,采用了DM-Count损失函数以得到更为优越的计数性能。(3)鉴于两个问题:第一,上述方案(1)和方案(2)均是基于全监督的人群计数方法,这需要对数据集图片中的所有人头进行位置级标注,这使得标注成本巨大;第二,人群计数中每个行人都是独立的个体,方案(2)中将输入图片直接分割为序列化的图像Patch有一定局限性,一些人头被一分为二可能会导致重复估计或者漏估。为此,提出了一个基于弱监督人群计数的联合CNN和Transformer的网络JCTNet(Joint CNN and Transformer Network via weakly supervised Learning for efficient crowd counting)。该方案仅依赖每张图片中的人数总和标注,而不需要对每个人头的位置进行标注。首先用CNN特征提取模块提取高层次人群语义信息,再将其送入Transformer特征提取模块充分建模全局上下文和远距离依赖,以此来提升弱监督人群计数性能。(4)在主流数据集上(Shanghai Tech Part A/B,UCF-CC,UCF-QNRF,NWPU-Crowd等),针对本文提出的三种人群计数模型进行了大量的对比和消融实验。实验结果证明了所提出的三种模型的有效性。最后,给出了详细的可视化展示。
其他文献
在传统医学诊断过程中,医生需要根据CT图像等数据对病人的身体情况做出准确判断,并及时制定对应的医疗方案。然而,相关CT标注数据的人工获取方法非常耗时费力,需要医生对大量切片图像手工勾画轮廓。人工标注数据重复性低,主观性强,分割结果因人而异。随着深度学习在多个学科领域的深入融合和发展,基于深度学习的医学CT图像处理技术展现出强大的优越性。本文基于大数据集下的腹部多器官图像分割任务,提出并实现了多种精
学位
随着图像大数据的兴起,图像中存在的语义信息也越加复杂。单标签分类已不能准确表述图像内容,因此多标签分类开始受到越来越多的关注,且成功应用于图像搜索系统、医疗诊断等领域。为进一步提高多标签模型性能,本文提出基于图注意力表示和基于自适应图模块的两种多标签图像分类方法,主要贡献如下:(1)针对现有的多标签方法只能粗略定位目标语义区域,且无法充分挖掘语义区域之间存在的标签相关性的问题,本文提出了基于图注意
学位
树木三维模型对虚拟城市,城市三维场景重建、构建数字孪生体有重要意义。通过提取树木点云骨架构建得到树木的三维模型是一种重要的重建方式。树木原始点云数据一般都存在点云数量庞大,密度不均匀,存在噪声点,以及点云数据部分缺失的问题。大多数传统算法在提取树木点云数据骨架时,会出现提取出来的骨架拓扑与原始树木拓扑不一致,以及骨架断裂或者骨架的居中性不佳的情况,从而不能够准确提取出树木骨架。如何解决这些问题,并
学位
推荐系统作为缓解“信息过载”的有效途径,已具有大规模的应用。其中,基于共同群体偏好实现个性化推荐的协同过滤是应用最广泛的技术,但其输入数据的不平衡和损失函数的不公平,使其容易遭受流行度偏差问题。即相较于非流行的物品,推荐系统过于倾向推荐流行的物品,导致推荐系统中的马太效应。流行度偏差对推荐系统的各利益相关者都有不利影响,因此,如何缓解推荐系统中的流行度偏差是亟需解决的问题。之前大部分研究只从物品方
学位
公钥密码学是网络空间信任链建立的基石,但近年来量子计算的快速发展严重威胁了ECDSA、RSA等经典公钥密码算法的安全性。研究抵抗量子计算威胁的密码学前沿分支——后量子密码学日益受到重视。美国国家标准与技术研究院NIST于2016年启动后量子密码算法标准化工作,目前该标准化工作已进入第三轮,共入围6个基于多个理论的签名算法,根据美国白宫国家安全备忘录该标准化工作将于2024年完成。随着后量子密码标准
学位
近年来,随着产品数量和网站访问者数量的快速增长,推荐系统面临的巨大挑战是如何更准确地为用户建模,并以此向用户推荐更合适的产品。尤其是当这些网站拥有用户大量的社交信息时,尽可能地利用社交信息来实现这一目标一直是一个重要的研究课题。使用社交信息的关键是将这些用户间的关系更好地集成到用户建模中,以便推荐系统能够学习到更精确的用户特征表示,进一步产生更好的推荐结果。为了更好地利用用户社交信息进行推荐,本文
学位
当前计算广告中点击率预估与点击率转化研究主要面临样本选择偏差和数据稀疏性问题。因子分解机是目前主要用于实现大规模稀疏数据特征组合的热门算法,它最本质的特征是二阶特征交互。由于因子分解机能在较低复杂度下学习数据中隐藏的特征交互关系,当用于稀疏数据时,因子分解机比一般的多项式表达能力强。本文基于因子分解机模型进行了充分的扩展研究,并在计算广告领域的点击率预估和转化率估计的任务上进行了实验验证。本文主要
学位
新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)在全球的大流行严重威胁着人民的生命健康,给各个国家的医疗资源带来了巨大的负担,极大地影响了社会生活的正常运行。疫情防控的精准性对社会的正常运行关系巨大,因此,准确地预测COVID-19的确诊人数和传播趋势十分重要,它可以对疫情防控策略的制定提供重要的依据。本文主要研究内容如下:(1)提出了一种基于混合策略改进的
学位
肺结节作为肺癌诊断的重要征象,在肺癌的早期筛查中占有重要地位。肺结节的轮廓信息可用于分析肺结节生长形态变化,记录患者病情的演变过程。肺结节良恶性诊断结果更是对早期肺癌检测具有重要意义。随着医疗技术的不断发展,CT图像不断应用于肺结节的临床分析中。但海量CT图像极大地加重了放射科医生的工作负担,长时间的阅片极易造成医生的漏诊和误诊。因此迫切需要研发高性能的肺部CT计算机辅助诊断系统辅助医生记录肺结节
学位
在工业4.0时代,工业制造与信息化的融合发展已经成为必然趋势,数控系统在日常工业生产中承担着越来越多的责任。但是信息化给数控系统带来的安全问题也越来越严重,如何建立数控系统的安全保护体系,是当今国内外数控领域研究的热点,也是本文的主要研究内容。在数控系统中,用户本身的越权操作、文本文件和工艺图纸文件等数控系统中机密性文件的泄漏以及外部访问者的攻击都会带来严重的后果。本文针对以上数控系统信息安全威胁
学位