基于深度学习的实时目标检测算法研究与应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:wukeda139
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展进步,互联网和IT信息技术的发展方兴未艾,数字图像、视频媒体数据急剧增长,利用计算机视觉技术处理分析图像、视频的需求日益增长。目标检测是许多计算机视觉技术的前提和基础,主要用来对感兴趣目标进行图像识别和目标定位,受到越来越广泛的重视。目标检测除了要满足必要的检测精度外,对检测速度的实时性要求也越来越高。随着神经网络技术的发展,基于深度学习的目标检测取得了较好的检测效果,但仍存在模型复杂度高、训练时间长、计算资源利用率低等问题,检测精度也有很大提升空间。本文对深度卷积神经网络进行了深入的研究和分析,提出了基于深度学习的实时目标检测算法,分别针对目标检测网络的骨干网络(backbone)和检测头(detection head)这两个重要组成部分进行研究和实验。主要创新点和研究工作如下:(1)针对目标检测网络的骨干部分(backbone),提出一个适用于目标检测任务的轻量级骨干网络。该骨干网络从卷积层内部和网络层结构进行多尺度特征提取和聚合,保留了对目标检测任务十分重要的多尺度特征。首先,Stem Block模块采用双流结构减少原始输入图像信息的损失,实现图像快速下采样的同时,保留了丰富的浅层图像特征;其次,提出一个分组卷积模块Conv Block,在卷积层内部分组提取并融合不同尺度的图像特征;最后,基于残差连接和高效的通道注意力机制改进一次性聚合模块,提出e OSA有效地选择和聚合各网络层图像特征,通过特征复用提高网络检测效率。整个骨干网络能够有效地提取图像的多尺度信息,更适用于目标检测任务,同时,可以高效地聚合各网络层特征,通过特征复用提高网络效率和资源利用率。(2)针对目标检测网络的检测头部分(detection head),提出一种基于语义采样和检测框优化的目标检测算法,解决了正、负样本分配不合理的问题,能够学习更优的图像分类特征和目标定位信息。算法由基于语义的定位模块、自适应特征增强模块和高效的检测框优化三个模块组成。定位模块提出基于语义的样本采样方法,根据目标的语义特征区分前/背景区域,合理选择正样本和负样本,优先选择语义信息量较大的前景区域作为正样本;特征增强模块利用目标语义概率图和检测框偏移逐像素调整图像分类特征,增大前景特征所占比重,根据目标大小自适应调整特征编码范围;检测框优化采用并联的方式,对优化前后的检测框计算分类损失,几乎无成本地提升了定位性能,保证了特征对齐性和一致性。(3)探索了实时目标检测算法在无人零售领域的应用。首先,收集并标注了一个商品数据集,该数据集包含10类常见商品;其次,根据实际场景采用合适的数据扩充策略,在商品数据集上训练实时目标检测模型,检测网络由多尺度特征聚合的骨干网络、基于语义采样和检测框优化的目标检测头以及图像特征金字塔整合而成;最后,在本文搭建的实验平台上验证模型在无人零售场景的检测效果,无人智能货柜检测方案包含商品静态检测和商品动态检测两种识别思路。在商品数据集上的实验表明,实时目标检测模型检测精度达99.23m AP,检测速度为56.05FPS,满足实时检测要求。模拟实验表明,模型可以准确识别货柜内商品信息,正确判断用户的购买行为。
其他文献
伴随着我国社会经济高速发展,城市化和工业化程度越来越高,大气污染问题日益凸显。扬尘污染作为影响城市空气质量的首要因素,严重危害了人体健康和生态环境,加强对扬尘污染的监督和管理具有重要意义。目前,扬尘在线监测系统可有效解决人工监测所面临的监控不足、监管效率低、调查取证难等问题,但国内监测系统依旧存在数据可靠性不足、功能建设不完善以及监测成本高等缺陷。针对上述问题,结合城市扬尘监测需求,本文设计并开发
学位
CO是空气污染物的主要成分之一,CO为有毒有害气体,无色无味,易与人体的血红蛋白结合使血液供氧不足导致窒息死亡。与化学反应相比,将CO直接氧化成CO2是最为简单有效的方法。对于CO的处理方法通常会采用热催化的方法,在高温下高效地将CO转变为CO2。然而热催化通常需要在高温下进行,能量消耗大,并且对于贵金属负载型催化剂,在高温下容易造成贵金属的烧结,使催化活性下降。因此寻找一种催化效率高、稳定性好、
学位
书面记载表明藏、尼两地自吐蕃时期便已互通往来,且多个历史时期以来从未间断。但10-13世纪前后两地交往的记载十分零散且存在空白,同时,对该时期两地建筑的关联性研究也未能深入而始终停留于形式比较层面。故本研究从藏、尼两地该时期的内物质遗存入手,以中尼古道沿线人员往来较为频繁、建筑遗存更为丰富的后藏吉隆地区和尼泊尔加德满都谷地两地10-13世纪前后的建筑为研究对象,以檐口、屋面、门窗等在外观形式上具有
学位
智能手机和网络的普及给社会生活带来了巨大的转变,同时也影响着个人兴趣爱好的变化,在如今愈来愈快节奏的生活状态下,许多人在网络上消耗大量的业余时间,包括各种社交APP(微信、微博等)、短视频软件(如抖音、快手等)以及优酷等播放平台的使用等。这给诸如当下用户量较大的今日头条等版面较全的软件带来了巨大的机遇与挑战,诸如如何给自己的平台带来巨大的流量,平台上的用户如何提高个人账户的关注度以增加流量等都是很
学位
论文研究一种重视生活形式的设计方法,主要探讨如何通过结构体清晰地呈现生活形式这一方法。研究受建筑师、建筑教育家海杜克启发,指出海杜克在生活形式问题与结构体作为呈现生活形式的方法两个方面均有深入思考。论文总结了他的思考和方法,并以海杜克研究为基础,通过分析提炼当代建筑设计案例,提出了一些生活形式结合结构体的设计方法。首先,论文提取了海杜克切入生活形式的三个角度,分别是家居性问题、关系问题、特征问题,
学位
经营规模小、业务范围单一、资产少且融资难等特点,决定了微型企业在市场中扮演着补缺者的角色。而经营灵活、适应性强等特点,又使得微型企业能够根据市场竞争环境的变化,进入新的业务领域或打破行业现有的市场边界,开辟竞争相对较弱的利基市场。市场缝隙的存在,为微型企业在利基市场中生存提供了可能性。S公司作为一家销售运动类悠悠球产品的微型企业,正处于开辟缝隙市场的过程中,短期内无大量资金融入。基于当前企业生存发
学位
由于全球的能源危机与国际地缘政治的影响,海洋的资源和空间已成为各国未来战略的重点。超大型浮式结构可以作为海上综合平台,为海洋资源开采以及空间利用提供基础。因此,对于浮式结构的设计以及在海洋多种荷载作用下的动力响应分析是浮式结构研究的重点内容。首先,本文对浮式结构的发展历程、流固耦合问题、桩土相互作用、阻尼器和波浪荷载的发展研究过程进行了较详细的介绍。对于浮式结构的单浮体和上部框架进行详细的设计,并
学位
随着信息技术和工业检测的迅速发展,对物体的三维感知和深度测量成为关注重点。目前3C产业的元件大部分是镜面高反射材质以及具有类镜面反射特点的透明材料物体,对于一些表面镀金属薄膜的元件,传统的三维检测方法是在物体表面喷涂材料减少高反光影响,但是降低了检测精度;用机械探针接触式扫描物体表面,很容易损伤待测物体。基于结构光的三维成像技术是一种无损的、高精度的面型检测方法,其中基于条纹反射的相位测量偏折术(
学位
近年来,作为模拟生物神经网络(Biological Neural Network,BNN)的一种数学模型,人工神经网络(Artificial Neural Network,ANN)成为人工智能领域的研究热点。BNN的拓扑结构介于规则网络和随机网络之间并呈现小世界属性,已有研究证明将小世界属性和ANN结合所构造的小世界神经网络(Small World Neural Network,SWNN)能够更好
学位
在基于性能的抗震设计中,建筑结构的变形能力是衡量其抗震性能和损伤程度的重要指标。然而,震后的残余变形所带来的修复问题会造成巨大的经济损失。梁柱节点作为钢结构中的关键构件和薄弱环节,其力学性能的优劣对建筑结构的整体抗震性能影响很大。为此,本文设计了一种具有自复位能力的钢框架节点,该节点的梁柱翼缘通过U形阻尼器栓接,柱翼缘与梁腹板通过两块带条形孔的剪切板栓接,沿梁长布置高强预应力钢绞线。通过对钢绞线施
学位