基于深度学习与注意力机制的行人检测研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:qiuyucen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,行人检测在计算机视觉任务上已取得重大进展。目前大多数行人检测方法都基于深度学习框架,采用深度卷积神经网络(Convolution Neural Network,CNN)来提取特征。然而,CNN中的卷积属于局部操作,主要针对局部图像获取局部信息,无法提取图像的全局信息,并且依赖下采样来获得高级语义特征,不能选择性地关注重要的通道和特定的空间位置,导致检测器的性能受限。此外,实际行人检测场景通常面临复杂的遮挡情况,由于遮挡行人的部分身体不可见,现有行人检测器在遮挡情况下的性能大多不尽人意,因此进一步提高行人检测器的综合性能仍是一个具有挑战性的任务。本文针对上述问题主要的研究分析如下:(1)针对卷积神经网络特征提取能力有限的问题,本文在目前流行的单级无锚框行人检测模型的基础上,引入注意力机制构建一个更强大的行人检测器,来提高网络的特征提取能力。首先选择Res Net-101作为骨干网络并采用自适配归一化层代替其中的批归一化进行改进,接着提出了一个轻量级的动态核选择与空间分组增强注意力模块,并将其嵌入到网络的标准残差块中构建出高效的特征提取骨干网络,该注意力模块能够帮助网络提取更多的关键特征,进而提高特征图的表达能力以及网络的检测性能。(2)针对拥挤场景下遮挡行人难以检测的问题,本文基于注意力网络进行有效的遮挡处理,构建出新颖高效的遮挡行人检测器,从而改善遮挡行人的检测性能。具体地,首先针对其他物体导致的类间遮挡情况,在检测头之前引入掩码调制分支,该分支利用行人的可见区域信息生成像素级的空间掩模来调制提取到的全身特征,从而突出行人可见部分,同时抑制遮挡区域,显著提高遮挡行人的检测性能。并且针对密集场景中高度重叠的行人易发生类内遮挡的情况,本文基于传统非极大值抑制的后处理方法进行改进,提出一种新型的学习预测框特征向量的后处理算法,当预测框的交并比大于阈值时,进一步比较它们特征嵌入向量的差异来决定是否冗余。对于构造出的两种行人检测模型,本文在公开的City Persons数据集上进行广泛的实验验证。实验结果表明,相比其余先进方法,基于注意力的检测网络显著改善了检测结果,简单、高效且易于实施;遮挡处理检测网络在无需过多额外参数和计算时间的情况下,也获得了较为先进的性能和良好的检测效果。
其他文献
数学建模,曲线和曲面的构造以及形状保留是计算机辅助几何设计(Computer Aided Geometric Design,简称CAGD)中非常重要的研究领域。传统Bézier曲线由经典Bernstein基函数和控制顶点组成,具有对称性、端点性、非负性、线性精度、积分性、凸包性等优良特性。利用经典Bézier曲线的参数和几何连续性约束,可以很容易地构造任意曲线形状,但它的缺点是,设计者不能在不改变
学位
近十年来,得益于硬件设备的升级和计算机算力的指数式增长,深度学习在计算机视觉领域取得了巨大的成功,并且在诸多行业有了实际的应用。图像领域的研究趋近饱和,以及短视频数量的急剧增长,也让作为计算机视觉的一个重要组成部分的视频,越来越受到研究人员的关注。但是,由于视频本身具有的信息冗余性,时序性强,时间范围广等特点,基于视频的分析和识别仍然是一个较大的难点。本文通过不同架构的网络结构,在多个数据集上进行
学位
手势姿态估计在增强现实、虚拟现实以及人机交互等方面存在巨大的应用前景,一直以来是计算机视觉领域的重点研究方向。随着大规模手势姿态数据集的出现,基于深度图像的深度学习方法逐渐成为了手势姿态估计领域的主流方法。当前研究主要通过构建三维卷积神经网络进行手势姿态估计,致力于单一精度的提升,但通常导致模型复杂度过高、推理速度低下,难以满足实际应用、实时运行的基本要求。因此,为追求精度和实时性之间的平衡,本文
学位
源文本节选自美国作家古德里奇19世纪50年代所著的历史文献History of All Nations:Asia,所译部分为第104章至113章,共计28000英文单词。该翻译任务由导师发起,导师已与出版社签订合同,翻译该书用于出版。该书的翻译采用“机器翻译+译后编辑”模式进行,选择了拥有良好口碑的国产机器翻译平台代表——小牛翻译作为此次实践的翻译工具,进而评估小牛翻译在翻译历史文献时的真实表现。
学位
本项目实习报告基于笔者在烟台大学学报的摘要英译审校工作,实习时间为2020年1月至2021年9月,审校内容涵盖12期,共计145篇摘要。在项目期间,笔者的工作内容主要是审校烟台大学学报(哲社版)英文摘要,领域涉及哲学、文学、法律等。在项目准备上,本报告探讨了中英文摘要写作标准并分析了摘要文本特点,并在此基础上制定了审校质量标准,介绍了平行文本阅读过程、项目所需的工具和资源以及应急预案。在项目实施上
学位
本翻译项目的材料选自Cultural China一书,书中着墨最多的是儒家的人文精神,突显儒家一脉相承的批判精神。在全球化和本土化意识均日益强烈的今天,该书对于儒家文化的继承与传播具有重要意义,可以为相关学者提供很好的参考,具有一定的翻译价值。本项目选取了书中“人文精神与全球伦理”作为源文本。作为人文精神主题演讲,全文语言流畅,虽涉及部分儒学专业术语,但整体难度适中,重点在于向听众传达思想和观点。
学位
降维是机器学习和数据科学领域的重要研究方向,其应用包括但不限于数据预处理、数据可视化等。多数现有的降维算法获得可信低维嵌入的前提是输入数据具有稠密、均匀的分布特性,但这些方法往往在稀疏数据等缺陷数据上失效。因此,提高降维算法在不同数据情况下的通用性,是一项有意义且具有挑战性的任务。本文从鲁棒降维方法的角度出发,着眼于提高降维方法在缺陷数据上的适用性。基于线性、非线性与神经网络三种降维模型,本文工作
学位
生命过程通常复杂而精细,需要许多生物分子共同参与来完成。构建并分析生物网络有助于准确地认识生物分子的功能与作用,识别生命过程中的关键生物分子,从而辅助疾病诊断、药物研发等研究。本文研究了基于分子间关联关系的生物网络构建方法,和基于差异网络筛选潜在生物标志物的网络分析方法。具体研究内容如下:1.提出了基于加权弹性网络的基因调控网络构建算法WEN(Weighted Elastic Net)。由于基因之
学位
《孔子家语》,又名《孔氏家语》,或简称《家语》,按照今传本附《孔安国序》所言,该书与“《论语》、《孝经》并时”,乃“当书公卿士大夫及七十二弟子之所咨访交相对问言语”,即是一部记录孔子及孔门弟子思想言行的著作,因此被杨朝明盛誉为“孔子研究第一书”,虽在国内曾被一度视为伪书,但却在不同的时期被翻译成英、日、韩等多种语言,并对儒学在世界文化中的传播起到了重要作用。其中,与英国传教士赫真信的英译版及日本学
学位
下一个位置预测任务的目的是希望通过分析人类的移动轨迹数据,获取用户的移动行为规律信息,从而预测用户接下来最可能访问的位置,其在基于位置的社交网络服务中发挥着非常重要的作用。然而,实现准确、高效的位置预测仍然面临着诸多挑战。首先,人类的移动行为与时空因素高度相关,使得人们的出行规律经常表现出极其复杂的时空过渡模式。其次,轨迹数据存在稀疏性和异质性问题,严重影响了位置预测模型的移动规律建模效果。最近,
学位