基于注意力模型的行人属性识别研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:john_cai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,面对现代化城市监控系统日益增长的多媒体数据,例如图像、音频、视频等数据,如何快速且高效地处理海量数据成为当前亟待解决的问题之一。尤其是如何精确地分析来往的行人,进而快速甄别出对人民生命财产安全有危害的人和物是完善城市安防的关键。行人属性识别技术能够根据行人图像得到行人所具有的属性。然而现有的大多数行人属性识别的方法将其看作是图像的多分类任务,将属性看作是独立的部分,忽略了不同属性之间的关联性。为此,本文将行人识别任务看作是序列生成任务,充分利用属性之间的关系进行预测。特别地,为了更好地学习到行人图像与属性之间的映射关系,本文引入了注意力机制引导模型根据不同属性关注行人的不同部位,具体工作主要如下:
  首先提出了一种基于图像-属性互惠引导网络的行人属性识别算法(IA2-Net)。根据行人属性的特点,可将行人属性分为局部属性和全局属性,该算法首先利用图像特征和属性特征设计了图像引导特征和属性引导特征两种引导特征,利用两种引导特征引导模型根据属性区分性地学习行人图像的特征;然后为了更好地帮助模型根据属性类型给予两种引导特征不同的权重,提出了一种融合的注意力机制;最后提出了一种新的交叉熵损失函数用于缓解行人属性不均匀的问题。通过在行人属性识别领域内两个主流数据集PETA和RAP进行的大量实验,验证了本文所提出的算法的有效性和先进性。
  其次提出了一种基于多时步注意力模型的行人属性识别算法(MTA-Net)。该算法首先利用行人图像和属性构建了两种联合嵌入特征,然后与属性特征进行级联得到融合特征。融合特征能够引导模型有效学习行人属性和图像之间的映射关系,增加模型的学习能力。此外,现有的基于注意力机制的行人属性识别方法都只是利用当前时刻的属性优化图像特征,忽略了下一个时刻的属性对模型的影响。为此,本算法提出一种多时步注意力模型,能够同时利用当前时刻属性和下一个的属性优化模型。最后,为了在缓解行人属性不均匀问题的同时,增加模型对难以识别的属性的关注,提出了一种新的平衡损失函数。在PETA和RAP上的大量实验验证了该算法的有效性和先进性。
其他文献
赵歧注释《孟子》十分注重词句训释,《孟子章句》(以下简称为《章句》)全书共有一千三百六十二条随文注释,在这些随文注释中,无论是单独的释词,还是释句中对词的训释,都能看出赵注中释词的重要性。而朱熹注《孟子》虽然更注重义理的阐释,但释词作为阐释义理的基础,仍然是《孟子集注》(以下简称为《集注》)中的重要内容。  在对二注的释词进行全面对比后,从二注中的单独释词和释句中的释词中整理出了二千二百余条相关释
关联理论是语用学研究的新发展.它最初的目的是为认知科学打下某种统一的理论基础.现在,它的影响已远远超出语用学领域.翻译是受其影响最大的学科之一.Gutt于1991年完成并发表了博士论文:Translation and Relevance:Cognition and Context(《翻译与关联:认知与语境》),其中提出的关联理论的翻译观给人启迪,发人深思.该文旨在论述关联理论在翻译中的应用,探讨关
学位
一、本研究的缘起  本研究的缘起主要基于两点:一是对中华人民共和国成立以来我国民族史研究界,特别是苗族史研究中对于苗民历次起义或暴动之性质、意义所作诠释的反思;二是对近些年来费孝通教授所提出的“中华民族多元一体格局”理论的思考。  
学位
系统调查了白洋淀流域浮游动物物种多样性及群落结构,评价了流域内一淀(白洋淀)二库(西大洋水库、王快水库)四河流(府河、孝义河、沙河、拒马河)的水质状况以及白洋淀富营养化现状,分析了浮游动物群落和环境因子的关系。应用高通量测序技术与传统形态学鉴定进行了对比,探究二者对浮游动物种类的鉴别能力。研究结果旨在为白洋淀流域浮游动物多样性的研究提供基础资料,同时也为白洋淀生态保护和环境修复提供理论依据。主要结
学位
移动互联网和物联网的需求日益增长,对5G无线通信提出了高频谱效率,海量连接等挑战性的要求。非正交多址接入技术(NOMA)通过非正交资源分配来容纳更多的用户,是有效应对5G挑战的解决方案之一。而稀疏码多址接入(SCMA)作为码域非正交多址接入技术的一种,以良好的兼容性,较高的频谱效率等优势脱颖而出,成为研究的热点。  在SCMA系统中,码本设计是影响系统性能的关键技术,因此,针对SCMA码本设计的复
在表面安装技术(Surface-Mount Technology,SMT)工艺流程中有一种效率低下但极其重要的的自检防错机制,该机制需要检测人员以印刷电路板(Printed Circuit Board,PCB)的位号图为基准对生产的首个产品样板进行检测,重点是元器件的极性方向。在实际检测过程中,工作人员仅能在元器件数量较少的情况下进行有效检测。为了使检测人员能对产品样板实现更高效的检测,本文提出了
近些年来,人脸识别取得巨大的进步,这得益于深度神经网络的飞速发展,尤其是卷积神经网络的发展。卷积神经网络在人脸识别领域具有很好的鲁棒性,适应多场景的识别,在一定程度上可以有效减少因为光线、角度等导致的识别率下降。卷积神经网络在人脸识别任务中发挥着重要的作用。本文以基于卷积神经网络的人脸识别算法为研究课题,重点研究了人脸识别中的深度网络、损失函数等问题。  一个高效的特征提取网络对于人脸识别任务具有
学位
在数字图像拍摄过程中,当拍摄对象与感光元件的空间频率接近时,往往会出现摩尔纹现象。由于电子屏幕具有网格状采样的特点,因此拍摄电子屏幕更易出现摩尔纹现象。本文称相机拍摄电子屏幕时出现的摩尔纹为屏幕图像摩尔纹,其色彩和形态多变,与图像内容难以区分,严重影响了成像的视觉质量。当今时代,用相机记录屏幕内容已成为一种快捷、重要的记录方式,因此研究屏幕图像摩尔纹的去除算法具有重要意义。  目前屏幕图像摩尔纹去
学位
道路交通标志是保证驾驶安全、交通顺畅所设置的指示性标志,遵守交通标志的指示是每个驾驶员的义务,然而由于漏看或误判交通标志所造成的交通违章时有发生,甚至有时还会造成严重的交通事故,危害人身财产安全。因此,交通标志检测算法的研究显得尤为重要。随着计算机视觉理论不断发展,卷积神经网络被广泛应用于目标检测领域,在交通标志检测课题上得到了广泛的应用与发展。应用于无人驾驶或辅助驾驶领域的交通标志检测算法成为了
近年来声源定位技术发展迅猛,已经成为声学和阵列信号处理领域的热点问题,其在语音增强、视频会议、鸣笛抓拍、智能机器人、智能家居等领域已经被广泛应用。  声源定位技术是在模拟动物双耳效应的基础上,融合音频信号处理、阵列信号处理、机器学习、数字信号处理等多个学科的一项技术,通过麦克风阵列获取目标声源发出的信息参数,测定声源到麦克风阵列中心的距离以及方向角和俯仰角,实现对目标声源的识别、跟踪与定位。本文以
学位