人群密集场景中的行人检测算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:bj_mark001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人检测是计算机视觉领域中的一个重要分支,主要是指从图像中寻找行人目标并确定其位置。人群密集场景下的行人检测是一项具有挑战的工作,对于现有的行人检测算法难点主要包括目标密度高并存在自遮挡,导致损失函数回归的边界框位置不准确;检测框架后处理的硬筛性,造成了目标的漏检和误检,致使在密集场景下行人检测精确度较低。近年来,随着计算机硬件及人工智能技术的飞速发展,基于深度学习的目标检测算法在检测精度方面获得了优异的表现,并被广泛应用于智能无人驾驶、区域安防监控、智能交通等诸多场景中。为解决上述问题以及满足检测框架在工程中的应用,本文以基于深度学习的端到端的目标检测算法YOLOv3为基础,主要研究工作如下:1.文章将多目标检测的YOLOv3算法作为检测框架,鉴于卷积神经网络中的浅层特征与深层特征之间存在差异,不同特征层对应的感受野也不同,深层特征图中包含大量语义信息,浅层特征图中包含较多几何信息,为避免不同深度的特征图之间直接拼接造成的误差,本文提出了p-YOLOv3网络。网络中采用“131”的卷积结构对浅层特征进行特征提取与重组,再将经过卷积结构的特征与深层特征进行拼接,而后将原检测网络进行裁剪,最终提取了目标行人有效的特征信息。实验结果表明,在行人检测数据集中p-YOLOv3网络架构比原网络更具优势。2.目标检测为获得目标的准确位置信息,在模型训练中,设置了合理的损失函数使得预测框靠近真实目标框。但在密集场景下,真实框密度较大,框与框之间存在影响。为了使预测框靠近匹配的真实框,并且远离周围其他真实目标框。本文在YOLOv3的损失函数中加入排斥力损失,在模型训练时,当预测框靠近周围其他未匹配的真实框时加以惩罚,并设置了未匹配的真实框的选取策略。实验证明加入排斥力后的损失函数有助于边界框回归,进而提高了检测网络在密集人群中的检测性能。3.在目标检测网络的后处理部分,对于置信度较高的预测框,仅通过计算与最大置信度的预测框的重叠度来判断是否保留该预测框,这样进行预测框滤除的方法对密集场景下的行人检测十分不利。为保留有效预测框,本文改进了后处理机制,使用GIOU判断两个预测框之间的相似度,并对相似度高的且将被滤除的预测框进行二次筛选。二次筛选主要是计算预测框之间的距离,通过比较该距离与距离阈值的大小,决定预测框的去留。实验数据表明改进的后处理方式能有效保留真实目标的预测框,提高检测模型的平均精确率。
其他文献
随着互联互通和构建命运共同体理念的提出,世界各国通过英语这个沟通桥梁的交往愈发密集,英语作为交流的工具,它在当代国际语言发展中发挥着不容小觑的作用。英语课程标准也表明了口语能力的培养是学习英语不可或缺的一部分。我国的英语教育体系中,初中英语所处的阶段是非常重要的。虽然初中英语教学取得了一定的教学成果,但口语教学却相对落后,这种现象在农村地区尤为突出。由于各方面因素的限制,农村初中的英语口语教学存在
生成模型的应用?分广泛,可以用来不同的数据进行建模,比如图像、文本、声音等。其中,深度生成模型就是利用深层神经网络可以近似任意函数的能力来建模一个复杂的分布。强化学习作为机器学习领域一大重要组成部分,在机器人控制、机器翻译以及推荐系统上具有广泛应用。传统强化学习通过不断与所处环境进行自主交互并从中得到策略实现决策过程。然而,目前大多数多步决策问题难以给出传统强化学习所需要的即时反馈信号。这也逐渐成
为探索稻草对辽宁绒山羊成年母羊的饲喂价值,本试验对稻草在辽宁绒山羊成年母羊瘤胃的降解特性;辽宁绒山羊成年母羊对稻草的消化率;饲喂稻草比例对辽宁绒山羊成年母羊的瘤胃发酵内环境、生长性能、血液生化指标及经济效益影响这些方面进行了研究。选用10只安装永久瘘管的辽宁绒山羊成年母羊,随机分2组,每组5只,以玉米秸秆为对照来测定稻草在辽宁绒山羊成年母羊瘤胃的降解特性。采用尼龙袋法测得稻草的干物质、粗蛋白质、中
在国家大力发展绿色建造的大环境下,装配式建筑因其节能环保、缩短工期、减少现场劳动力等优势,受到国家的提倡和重视,装配式建筑将成为建筑业转型升级的必然途径。在政府部
乙醇作为一种化学物质在食品工业、能源产业中都有着重要的使用价值。在乙醇的生产过程中,如何对乙醇浓度进行精确的监控对于乙醇的工业化生产具有重要意义。本文制作了半导体乙醇气体传感器并研究了其对高浓度乙醇气体的响应特性。传感器的敏感材料为TiO_2,材料结构为独立式纳米管阵列。首先,本文通过电化学阳极氧化在NH_4F-乙二醇-水的电解液体系中制备得到TiO_2纳米管阵列,对阳极氧化过程中的氧化电压、氧化
随着医学图像共享和远程诊断技术的发展,越来越多的医学图像需要在网络上进行传输。在网络传输的过程中,医学图像面临着非法复制、窃取和泄露等安全风险,数字水印可以解决这类安全风险问题。因此,用于版权保护的医学图像水印技术成为研究热点。本文针对传统医学图像水印方法不具有普适性的问题,将深度学习引入到数字水印技术的研究中,自适应地根据医学图像的特征设计合适的水印算法。主要研究内容概括如下:第一,提出基于深度
非达霉素是一种新颖的18元环大环内酯类抗生素,于2011年5月获FDA批准用于艰难梭菌引起的腹泻的治疗。非达霉素的临床治愈率高于万古霉素,复发率低于万古霉素,是目前理想的抗艰难梭菌药物。本文研究了非达霉素的分离纯化条件,探索出一条工艺简单、提取收率高、成品纯度高的提取工艺路线。该工艺先用板框过滤去除发酵液中的色素、无机盐等杂质,收集菌体;然后向菌体加入3倍乙醇浸泡2小时,再过滤得到浸泡滤液;向浸泡
近年来随着人们出行次数增多,公共场所的安检压力也随之增大,如果对每一个乘客按传统方法依次检测会耗费大量时间,因此需要能对运动中的行人快速安检的技术。相比于针对静止物体的毫米波安检成像系统,针对运动物体的毫米波成像系统还未成熟,现存的成像算法还有一些使用限制。因此,本文中研究了针对静止和运动物体的毫米波安检系统与成像算法。论文的主要工作和贡献包括:(1)提出了解混叠成像算法。对静止物体成像而言,在实
依赖互联网的蓬勃发展,大规模在线开放课程(Massive Open Online Courses)自现世以来在一定程度上实现了知识的传递和教育的革新,在一定意义上扩大了高等教育的对象边界。然而,其低学习效率,高退学率等缺点也广受诟病。同多数社交系统一样,学习者的线上交互行为也可以被描述为复杂系统及网络相关过程。每个学习者代表了网络中的个体(节点),个体的交互组成网络中的复杂关系。与之同时,大数据和
随着我国经济的快速发展,社会处于高速发展时期,因此,建筑行业呈现出了不断发展的趋势,对于建筑工程来说,质量是最重要也是最基础的问题,只有保障建筑工程的质量,才能促进我