基于YOLOv5的实时检测算法研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:xingyu2266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习越发成熟,目标检测已经成为计算机视觉领域中一项非常重要的基础性任务并受到了研究者们重点的关注。该技术已经被广泛的应用在如人脸识别、动作识别、实时监测等不同领域。在目标检测领域,较为主流的算法就是通过应用卷积神经网络来对图像进行特征提取的算法。随着算法的不断改进,如何针对复杂场景下图片特征的提取,同时保证不同尺度下的特征图的平衡性成为了提高算法模型精确度和实用性的关键。当今YOLOv5算法凭借出色的效果在该领域占据了主导地位。但是现实场景中不确定因素较多,YOLOv5针对复杂场景下的运用还需要根据不同需求进行优化改进。因此,设计一种检测性能更好,检测效果更稳定的模型成为了一项挑战。基于上述背景,本论文对YOLOv5算法进行改进,结合YOLOv5算法的几个阶段,提出在训练阶段将数据增强中加入混类增强,将注意力机制添加到YOLOv5网络结构之中,并且在自适应预测框计算阶段使用改进K-means算法并加深主干网络进行多尺度输入。具体改进包括三个方面:首先,为扩充YOLOv5算法训练数据,提出加入混类增强的数据增强方式。通过设置0.5的常数系数以达到Copy-paste同等的尺度缩放效果。其次,YOLOv5中使用K-means算法结合遗传算法实现的自适应锚框更新,该方法在锚框的选取上,利用YOLOv5作为相似性的评价标准,但是IOU无法精确反映两者重合度大小。本论文提出使用GIOU代替IOU作为标准,完善了锚框自适应更新的合理性,同时,使用K-means算法匹配新的锚点坐标,将YOLOv5算法中的3个检测尺度扩展为4个,提高模型检测精度。最后,为解决YOLOv5中不同尺度下的特征的不平衡问题提出添加注意力模块。针对选取的数据集在网络结构添加注意力模块,使检测网络能够根据权重提取重要信息,增加了网络的检测能力。对于本论文对模型的算法改进,利用安全帽佩戴检测数据集将改进后的算法和原检测算法进行对比实验,通过对比实验证明加入改进的混类增强机制对模型Map提升3.3%。同时将添加了不同注意力模块的网络与原网络进行对比实验,结果表明,添加不同注意力机制对算法性能提升不同,从而选取最优注意力模块构建检测系统。最后进行消融试验,结果表明改进后的模型比原有模型在平均精度上提高了5.2%。
其他文献
人脸超分辨率是计算机视觉的一个热点研究方向,目前多数算法仅针对双三次降采样或其他高斯模糊技术生成的人工低分辨率图片进行超分。但真实场景下采集到的人脸图像往往受到噪声、模糊、低分辨率等复杂降质因素的干扰,这导致传统的人脸超分具有较低的鲁棒性,无法满足现实需要。因此对真实场景下的人脸图片进行盲超分具有重要的现实意义。针对这一问题,常见的人脸盲超分算法分为有监督和无监督两种技术方向。其中基于有监督的算法
学位
在问答场景中,回答问题需要依赖大量的背景知识,基于规则和文本匹配方式的自然语言问答无法利用现有的大量人类背景知识。传统的基于知识图谱的检索式问答采用流水线的方式实现,这会导致错误传播。为了减少累积错误,一般会采用多召回后排序的方式。但是,这种方式会导致召回的候选路径过多,增加了路径排序的难度。为了解决以上问题,本文提出了一种将生成路径模型与信息检索相结合的方法。其中本文的主要工作如下:(1)构建了
学位
硅基液晶芯片(LCOS)是实时光学信息处理,自适应光学和光计算等现代光学领域的关键器件,它在现代光学技术的发展中起着重要的作用。由于LCOS支持Flex-grid特性,已成为实现WSS模块的主流技术方案。基于LCOS芯片的空间光调制器的工作原理是利用液晶的电控双折射效应,它是一种在不改变光束振幅的条件下,实时、动态地对入射光进行相位调制的一-种光调制器件,被广泛应用在光电混合信息处理系统中。与传统
学位
根据海关统计数据,按国别或地区对近年来山东苹果的出口情况进行了分类汇总。结果显示,2017—2021年,山东苹果共出口到世界57个国家或地区;其中,对海上丝绸之路沿线各国或地区的出口量占总出口量的98.66%,且单价高于对外出口均价。鉴于我国苹果出口受新冠肺炎疫情、地缘政治和国际形势等多种复杂因素影响,建议山东省充分利用RCEP提供的历史机遇,继续深耕东南亚市场;发挥海运优势,努力扩大在中亚和西亚
期刊
信息的重要程度越来越高,各行各业都被海量的信息所覆盖,这海量的信息中包含着多种模式的信息载体,形如文本、视频、图片、语音等,其中文本则是这些信息的最重要的载体之一。然而在船舶领域,还没有形成一套合理的分类流程与方法,在区分专业性极强的船舶文本信息时需要进行人工比对,这将花费大量的人力资源成本和时间成本。本文就此问题提出一套可行的解决方案,并在原算法基础上进行创新。本文主要研究将文本分类相关技术应用
学位
光纤光栅应变传感器所具有的重量轻、易安装、可复用以及抗电磁干扰等优点使其可以很方便进行应变场的长期监测,这一特性在结构健康监测领域中有着重要应用。基于全同弱反射光栅阵列的分布式高速应变测量系统采用时分+波分复用的解调方式,与布里渊散射技术实现的分布式应变传感系统相比有着更高的解调速度,同时,相较于普通光栅技术实现的应变传感系统其有更长的探测距离以及更大的光栅容量。本文以基于全同弱反射光纤光栅阵列应
学位
随着城市工业化、现代化进程的持续加快,城市规模扩张,工程建设量急剧增加造成事故频发,对消防救援队伍的救援响应速度、救援资源调度分配、现场救援作业、科学施救、重点单位预案录入等综合能力提出更高要求,越来越多的信息化手段全面融合消防业务管理和实战应用,为适应城市消防指挥中心的接处警工作要求,针对当前大多数接警系统信息录入、力量调配效率偏低等问题。本文提出一种基于ALBERT的预训练模型在接处警系统中对
学位
近年来,自然语言处理关键技术之一语义解析得到越来越多人的关注,NL2SQL任务属于语义解析,NL2SQL任务是将自然语言描述通过模型将其转换成可执行的SQL查询语句。由于中文文本与英文文本之间的差异,因此不能直接将以往基于英文数据集的NL2SQL模型应用到中文文本上。同时,现有的NL2SQL模型中一般都使用序列生成模型来预测条件值,此方法预测得到的条件值准确性较低,预训练模型也只使用BERT,而其
学位
虚拟试穿的目的是转移目标服饰图像到参考人图像上,是最近几年的热门话题。现有技术通常侧重于在生成图像上保留服饰图像的原有特征。但当参考人图像中出现大量遮挡以及复杂姿势时,生成清晰合理的试穿图像仍然是一个挑战。本文采用渐进式的生成逻辑,先生成预测语义分割图,再由预测语义分割图结合原参考人和服饰自适应地保留非目标区域,并生成目标区域的信息,完成试穿图像的构建。此外,本文采用小数据集小尺寸图像进行训练,并
学位
运用2016~2020年面源数据,采用区位商、集中系数、优势指数测算与比较全国7个苹果主产区集群集中度及竞争力。研究表明:(1) 7个苹果主产区均具有专业化优势和集群发展优势。其中,陕西省苹果产业发展优势最显著,且集群优势要优于专业化优势;山西省与陕西省专业化优势的差异较小,而集群发展优势差异较大;近5 a甘肃省苹果产业的专业化程度和集中化程度呈增长态势;山东省、辽宁省、河北省的苹果产业的专业化程
期刊