轻量级目标检测模型的设计与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ysc4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习凭借海量训练样本和不断提升的硬件算力的支持,在计算机视觉的多个领域里获得了巨大成功,基于深度卷积神经网络的模型目前已成为目标检测领域的主流。基于深度学习的目标检测分为两个研究方向:一是高精度检测,借助性能强大的运算设备刷新模型在通用基准数据集上的检测精度;二是轻量级检测,侧重于模型的轻量性和实时性,在检测精度不显著降低的同时尽可能减小模型的规模,使其更适合部署于实际应用场景中。当前的轻量化检测技术大多只针对于模型的设计与训练中的某个步骤,缺少贯穿整个过程的系统性框架和指导思路,而直接搜索网络结构则需要较高的训练成本或良好的搜索空间构建能力。本文研究通用的轻量级目标检测模型实现框架,可用于各类算力资源受限的实际检测任务。根据框架构建基础检测网络,并结合实际任务对模型进行针对性优化,实现适用于给定任务的轻量级模型。首先,本文梳理了检测任务的约束性条件和网络结构的复杂度指标,总结出影响网络表现的三个结构性因素:深度、宽度、分辨率,并结合Roofline模型提出轻量级检测网络的构建思路。接着,本文在此基础上引入One-Shot聚合(One-Shot Aggregation,OSA)连接方式和跨阶段局部网络改造,改进主流检测网络的主干部分,实现CSPOSA模块并构建通用的轻量级检测网络。由于通用网络对于具体的检测任务而言在结构上存在一定冗余,本文接着提出专用性优化策略,分别对网络结构和训练过程进行优化,提升训练出的模型的针对性。对于网络结构,分别调整网络的宽度和深度,裁剪冗余部分,进一步压缩模型的参数量;对于训练过程,将其分为前中后三个阶段,训练开始前分析目标尺寸分布等数据特征;训练进行中根据具体任务调节学习率和锚框参数;训练完成后用蒸馏恢复高压缩比模型损失的精度。通过优化训练过程,在不增加额外运算量的同时提升模型的检测表现。本文选取两个差异较大的实际检测任务,将嵌入式平台安全帽检测和无人机平台行人车辆检测作为实验场景,验证提出的框架的有效性,实现的轻量化检测模型的参数量是高精度对照模型YOLOv3、YOLOv4的1/10~1/100,同时检测精度相仿,更适合部署在算力有限的设备上。
其他文献
共享可以提高数据的价值,但是在共享过程中,存在集中部署、恶意窃取以及篡改等安全隐患问题,极大影响到数据的安全。在面向群组的数据共享场景中,为了保护共享数据的机密性,组成员之间需共享一个群组密钥,群组内的所有通信内容均需使用此群组密钥加密。因此,密钥安全是数据安全共享的前提。密钥的安全面临着三个问题,第一,分布式密钥管理方案因其消除了中心化的威胁而被广泛使用,而分布式的管理对密钥的一致性和验证性提出
智慧医疗在人们生活中占据的地位越来越重要,随着网络发展,医疗场景下不同信任域之间交互越来越频繁,在交互过程中涉及到的跨域身份管理和认证问题对智慧医疗场景下数据安全的发展有着重大意义。目前比较多应用的认证框架主要有基于身份信息证书的私人公钥基础设施(PKI)和基于个人身份信息的密码管理体制(IBC),以上两种类型的框架结构已经日益完备,但仍然还存在一些缺陷,且大部分医疗机构中的证书身份等信息都是集中
视觉同步定位与地图构建(SLAM,Simultaneous Localization and Mapping)是智能机器人研究领域中的关键技术。传统视觉SLAM方案大都基于特征点法或直接法,这两种方法有着各自的优势和不足。本文旨在结合特征点法和直接法的优势,提出了一种基于半直接法的单目视觉SLAM方法,其主要的工作内容如下:1)首先,本文在ORB-SLAM框架基础上,结合了特征点法和直接法的优势。
单目标跟踪指在给定某视频序列初始帧中的目标大小与位置的情况下,预测后续帧中该目标的大小与位置。虽然深度学习技术近年来在单目标跟踪领域发展迅速,但是由于现实场景中存在诸多挑战因素,目前仍然没有一个可针对单个行人进行准确跟踪的跟踪模型。本论文主要解决基于多尺度特征融合的单人目标跟踪问题,特别是提升视频中单个行人检测和跟踪性能。本论文在深度学习的基础上以设计准确的单人目标跟踪模型为目标。首先通过结合语义
随着互联网、大数据、云计算技术的发展,教育信息化程度不断加深,数字教育资源日益庞大,数字教育产业已经具备了良好的基础[1]。众筹众创模式作为现今互联网经济中新兴的模式,具有灵活、低门槛、传播快的特点,有利于新技术的发展与推广。然而教育资源来源广泛、数量巨大、结构不一、内容分散且冗余,导致学习者难以快速获取有效资源。为了加强数字教育资源整合力度,提高信息资源的融合水平,构建高质量的数字教育资源库,本
物联网的应用和普及为远程医疗提供了基础,医生可以通过血氧仪等采集类设备实时获取异地病人的健康数据,并通过精密摄像头、智能音频设备为异地病人进行实时问诊,甚至可以通过精密的远程智能手术台为病人进行远程手术。远程医疗的出现,使得世界上先进的医疗资源得以更好地共享,远程看病、远程给药、远程手术等操作正在不断地帮助异地不便的病人解决医疗需求。实际场景中,远程医疗应用往往需要医院域、病人域、药房域等医疗信任
随着近代工业的飞速发展,注塑成型制品显现出独天得厚的优势,其在国防、医疗、航空航天等各个行业的应用也日益广泛。目前国内军用高精度空心杯电机电枢大量依赖进口,注塑封装水平较低,精度不高,已经成为制约我国高端武器装备持续发展和性能指标提升的重要瓶颈因素。在此背景下,对军用高精度空心杯电机电枢注塑封装工艺的研究迫在眉睫。本文通过对国内外相关研究成果的整理分析,综合了注塑数值模拟、正交试验、神经网络以及计
互联网的迅猛发展给用户提供了丰富的信息资源,满足了用户在大数据时代对信息的需求,但是用户在对信息进行收集、过滤、整理和归纳时的能力是有限的,特别是在应对大量数据时,用户想要从中获得可用的信息就变得异常困难。个性化推荐系统的出现不仅能够解决这个问题,还能提高用户检索信息的覆盖面,制定个性化推荐内容。其中,推荐算法的应用是上述功能实现的重要前提条件。协同过滤推荐算法因其实现方法简单、模型扩展性强、推荐
随着医学成像技术不断地发展与革新,医学影像在临床诊断中具有重要作用。由于成像模式不同,不同成像设备采集到的医学图像呈现出不同的模态,反映出人体中不同的结构信息。然而单一模态医学图像仍不能全面地刻画病灶信息。图像融合是一种将多模态图像融合生成一幅融合图像的图像处理技术。融合图像能有效提高医学图像辅助诊断的准确度和效率,因此研究多模态医学图像融合具有一定的理论和实际应用价值。现有三维的图像融合方法较少
随着移动设备和Web2.0技术的迅猛发展,基于位置的社交网络(Location-based Social Networks,LBSNs)逐渐在人们的生活中普及。目前主流的社交应用每天都在产生TB级别的时空数据,这些数据通常以签到数据(check-in)的形式记录,基于这些数据,学者们提出了多种类型的位置推荐模型,但其在处理数据稀疏、冷启动等问题时表现不佳,且时间效率与推荐精度低。针对这些问题,本文