辅助信息引导的人群计数建模方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:X2000N
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人群计数是计算机视觉领域的基本任务之一。近年来,随着城市化人口的急剧增加,人群计数在构建智能化城市、实现人群密度监控、车流人流统计等方面,扮演着愈加重要的角色。人群计数的任务目标是,给定一张图片,估计其所包含的人数。对于一张人群图片,每个人头内部会有相应的一个点进行标明。当今主流方法是,对每个标注点进行高斯模糊得到密度图,构建模型学习输入图到密度图的映射关系。然而,密度图自身存在两个缺点,即存在尺度差异性问题以及标注位置差异性问题。尺度差异性的原因是,图像中人头尺度差异巨大,而密度图并未包含任何人头尺度信息。而标注位置差异的原因是,点标注为人头内部任意一点,即标注的位置存在差异。本文从解决人群图像的人头尺度差异性问题出发,提出了用辅助信息视度图引导的自适应大小卷积,用于建模连续尺度,进而提升网络对尺度差异的鲁棒性。此外,从解决人群标注时的位置差异问题出发,本文尝试用辅助信息人头框标注,在人头框内部构建带符号均方误差,从而提高模型对于标注位置差异的处理能力。另一方面,现有的单个人群计数的数据集体量小,而当今的主流方法并未考虑模型的泛化能力。因此,现有方法的模型过拟合严重。本文根据预训练人群计数的卷积核对不同数据集图片的相应程度不同,构建域卷积核,并将其作为注意力机制的引导信息,从而实现单个模型在多个数据集上性能的提升。具体的内容安排如下:(1)为解决人群图像中的人头尺度差异问题,提出了视度图引导的高斯模糊卷积(Perspective-guided Gaussian-blurring Convolution,PGC)方案。得益于辅助信息视度图的引导,PGC能显式地对深度特征进行空间各异的高斯模糊操作,实现自适应的感受野分配。最后,对于某些缺失视度图标注的数据集,构建了一个视度图估计分支,该分支可以有效地预测相应的视度图,并将预测的视度图作为PGC的引导。通过分析以及实验得出,PGC可以有效地提升网络解决人头尺度的能力,并提升计数性能。(2)虽然PGC可以一定程度上解决人头尺度差异问题,但其本身计算效率低下且特征混淆问题严重。为此,提出了视度图引导的分数膨胀系数卷积操作(Perspective-guided Fractional-dilation Convolution,PFC)。PFC扩展了普通膨胀卷积,使得膨胀系数可以是分数。PFC相比于PGC而言,具有计算步骤简单、无特征混淆以及尺度建模能力强等诸多优点。实验表明,PFC能提高多种网络的人头尺度鲁棒性,并获得优于PGC的性能与速度。(3)为解决标注过程中的位置差异问题,通过引入人头框辅助信息,构建了带符号的均方误差损失(Sign-MSE),增强了网络对标注位置差异的鲁棒性。此外,为了解决部分数据集缺失人头框标注的问题,还构建了一个标注点引导的人头框估计网络。值得注意的是,人头框估计网络只对人群计数训练集预测相应的人头框。由于训练图片均有点标注信息,因此均可预测出相应的人头框。实验表明,Sign-MSE可以有效地解决标注位置误差问题,从而提升模型的计数精度。(4)为解决主流人群计数方法鲁棒性差的问题,通过将多个数据集(可见域)的训练数据合并,以此训练单个模型,并计算预训练计数模型中卷积核的重要程度(即影响力因子),从而生成辅助信息域卷积核(Domain-specific Kernel),构建域卷积核引导的注意力机制,从而提升网络的鲁棒性。实验表明,训练的模型不仅在多个数据集(可见域)上性能较好,还能在未知数据集(未知域)上表现良好。
其他文献
协作同时定位与建图(Simultaneous Localization and Mapping,SLAM)是指多个机器人在未知环境中通过协作,实现同时定位与环境地图创建的技术。协作SLAM被广泛应用于大规模环境建图,但是对系统总体协调效率以及机器人个体之间的协作能力要求非常高。因此,将多机器人系统学习方法应用于协作SLAM成为近年来的研究热点。但是现有方法存在着学习目的及方法单一,无法解决多机器人
学位
霍尔推力器是一种具有高效率、高比冲、长寿命等优点的电推进装置。霍尔推力器在工作过程中,其尾部会形成等离子体羽流。由于羽流中包含了大量的带电粒子,其在空间中的扩散会影响航天器所处的电磁场环境,同时产生的高能离子会打到航天器表面,对航天器表面造成力矩、热沉积、侵蚀等影响。因此,有必要对霍尔推力器羽流进行系统的研究工作。针对霍尔推力器的羽流研究主要包括地面试验、在轨试验和数值模拟三种手段。地面试验测量受
学位
近年来,随着高通量测序技术的快速发展和国际大规模人类基因组计划的广泛实施,产生了EB至ZB量级亟待分析解读的大规模基因组数据。这些数据是新时代生命科学、人口健康、生物安全等战略性领域发展的基础,蕴含巨大的科学、社会和经济价值。序列比对和变异检测是基因组数据分析中的核心技术环节,对于基因表达量分析、选择性剪接、解析基因组中蕴含的遗传与变异信息、发现与疾病和表型的关联关系、揭示疾病发生与发展的分子机制
学位
心脏正常起搏功能的维持依赖于冠状动脉源源不断的血液供给。当冠状动脉因粥样硬化出现狭窄时,供血不足会造成心肌缺血。随着缺血时间的演化,心肌细胞的电生理功能会发生不同的变化,不同状态心肌细胞的电生理特性存在显著差异。按照心肌细胞电生理特性的不同,缺血性心脏疾病被划分为不同的病理阶段:缺血1a阶段(0-15分钟)、缺血1b阶段(15-45分钟)、短期心梗阶段(几天内)和长期心梗阶段(几周内)。本文基于电
学位
电子起搏器在应用于临床的60余年间,挽救了千万心脏起搏障碍患者的生命,但其仍存在易受到电磁干扰、不能响应情绪导致的节律变化等问题。因此有研究者提出一种生物起搏器疗法:通过基因编辑的方式改变细胞膜上离子通道蛋白的表达,从而干预离子通道电流的特性,构建出具有自动节律的生物细胞;将其植入心脏中,来驱动心脏进行跳动,以代替电极的功能。生物起搏器应用于临床前,尚需解决几个问题:(1)离子通道电流如何影响起搏
学位
心血管疾病对人类健康构成严重威胁,同时也给社会造成沉重的经济负担。我国当前的心血管疾病防治工作面临发病率持续增高和医疗资源供应不足等诸多挑战。针对这些挑战,基于可穿戴心电硬件和智能心电异常检测算法的心脏健康监测服务将为心血管疾病的筛查和管理提供有效且经济的解决方案,有望在未来的医疗健康服务体系中扮演重要角色。心电信号可用于检测丰富多样的心脏异常状态,不同异常状态有着不同的发作周期和持续时间,因而对
学位
近年来,神经机器翻译(Neural Machine Translation)取得了极大的成功,不仅仅作为机器翻译的一个全新范式而蓬勃发展,而且已经被应用于许多语言相关的技术中,例如:在线的通用多语翻译系统、同声传译系统、以及实时聊天助手等。标准的神经机器翻译框架由三个重要部件所组成:a)神经网络模型的体系结构(及其所学的内部隐层表示),b)高效的(且多利用数据增强技术的)序列到序列训练策略,c)用
学位
哈希算法作为经典的近似最近邻算法,凭借效率上的优势,在大数据时代吸引了大量研究者的目光。近期,现有的哈希算法利用深度神经网络的表达能力,通过大量的监督数据训练模型,构建了准确的哈希映射。然而对大量监督数据的强烈依赖限制了深度哈希算法的进一步落地。据此本文在标签数据不足的情况下,研究语义一致性映射的哈希编码表示。本文的研究对于哈希算法的现实应用有着重要的意义。在对相关研究进行分析后发现,现有的哈希编
学位
我国的城镇化正处于长期而高速的推进进程中。高效合理地开展城市规划工作,是保证高质量城镇化的重要手段。然而,城市规划在当下仍存在若干困难。首先,规划工作离不开对城市现状的感知和信息收集,而当前城市信息主要依赖人力线下收集,不仅耗费大量人力成本,更影响了规划进度;其次,规划方案主要依赖于调查和简单规则等传统方法完成,导致所规划设施的使用率不足,或供大于求。党的十九大明确提出,“要推动互联网、大数据、人
学位
随着数字成像设备的发展和普及,图像作为视觉信息的载体,成为人们日常生活中不可或缺的部分,承担着信息获取、分享、记忆和分析的重要作用。人脸图像在其中占有较高的比例,在日常生活中发挥着非常重要的作用。例如手机单反拍摄人物照、短视频电影中的人物、监控场景下的行人、人脸识别解锁相关的设备等。然而由于硬件设备的限制、拍摄过程的不稳定因素、成像系统的不完善、以及后续存储和传输的需求等因素,不可避免地对人脸图像
学位