基于优化YOLOv4的中餐食物图像识别与应用研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:zhuqs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为将中餐食物图像检测模型部署在移动端设备上,本文提出了一种基于优化YOLOv4的中餐食物图像检测模型,并通过实验证明其有效性。之后,基于所提出的模型,设计并实现了一个中餐食物图像检测系统。本文的主要研究内容及工作如下:1.针对传统目标检测模型占用资源较多,轻量检测模型精度较低等问题,本文首先从轻量化的角度出发改进YOLOv4模型,一方面使用轻量化神经网络Mobile Net V2替换原始YOLOv4的主干特征提取网络CSPDark Net53,另一方面使用5×5深度可分离卷积替换PANet和YOLO-Head结构中的3×3普通卷积,从而有效地减少了模型的体积。其次,为弥补模型轻量化后带来的性能损失,在PANet结构后增加了ECBAM(enhanced convolutional block attention module)注意力机制模块,以增强模型的特征提取能力。最后,提出了一种基于优化YOLOv4的中餐食物图像检测模型(Chinese food image detection model,CFIDM)。经实验证明,该模型在基本保持原有性能的前提下,与原始YOLOv4相比,体积减少到约20%,速度提升到约1.6倍。2.针对新数据集规模较小的问题,使用基于迁移学习微调的训练方式,有效提升了模型的检测精度;使用K-Means聚类算法在中餐食物图像数据集上重新聚类先验框,解决了YOLOv4预设先验框在新数据集上收敛速度较慢的问题;最后为了解决模型在预测过程中出现的漏检以及重复检测等问题,给出了一种基于Soft-NMS(soft non-maximum supression)优化的非极大值抑制算法。经实验证明,上述方法可有效提升CFIDM模型的性能。3.在上述研究成果的基础上,结合移动端技术以及Flask、Vue等框架设计并实现了一个具有食物图像识别、数据查询以及模型更新等功能的中餐食物图像检测系统,验证了CFIDM模型的可用性。主要贡献:提出了一种基于优化YOLOv4的中餐食物图像检测模型,在基本保持原模型性能的前提下,降低了模型的复杂度;给出了一种基于Soft-NMS优化的双阈值非极大值抑制算法;设计并实现了一个中餐食物图像检测系统。
其他文献
穿墙雷达技术凭借电磁波的低频穿透特性,可对墙后物体进行定位、识别与成像,在军事与民用领域具有广泛应用。而在探测中由于墙体等杂波的影响,对电磁波传播造成衰减,大大削减了目标回波强度,给目标探测定位和成像带来很大困难。意味着对墙体杂波的抑制成为首要任务,现有的传统杂波抑制方法对墙体的滤除和其它噪声的去除不能达到并存的效果,仍然存在目标低信噪比的情况。因此,本文提出一种自适应卷积神经网络的方法对雷达信号
学位
手部作为人类最频繁使用的身体部位之一,对于人机交互具有重要作用。准确的三维手姿态估计成为人机交互领域的关键技术,基于视觉的三维手姿态估计逐渐成为研究热点。目前,大部分的三维手姿态估计都是基于深度图像,但该类图像需要专门的深度相机采集,不易获取,而彩色图像应用范围广,对用户约束小,易获取,采集成本低,因此本文研究基于彩色数字图像的三维手姿态估计。由于普通彩色图像缺少深度信息,同时手部结构又具有自遮挡
学位
新型冠状病毒肺炎的爆发给全球的公共卫生体系带来了巨大的挑战,医护人员在与患者接触的各个环节都存在着极大的被感染风险,繁重的工作量使得医护人员夜以继日地奋战在抗疫一线。因此,我们迫切需要一种可以远程工作的人机协作医疗辅助机器人系统,降低医护人员的工作强度及交叉感染的风险。本文致力于实现自然、便捷且高效的人机交互方式,围绕手势特征提取、动态手势分类、机械臂逆运动学封闭解优化问题进行深入研究,搭建了一套
学位
农业领域数字化和智能化是国家数字化建设战略的重要组成部分。农业发展离不开农药,食品安全中涉及的农产品的农药残留量关乎人民生命安全和身体健康。因此,基于人工智能技术实现农药知识自动问答系统是有意义的。针对农业从业者和农产品消费者对农药知识的了解和使用方面困难突出,以及目前农药知识相关知识服务比较缺乏问题,本课题致力于通过构建农药知识图谱,设计并实现农药知识自动问答系统来提供农药知识服务,提出了利用深
学位
医学图像分析的第一步都是确定组织,因此,对于许多医学分析算法而言,背景去除是获得有效和准确结果的先决条件。尽管对操作人员来说识别WSI的组织区域是一项非常简单的事,但对于计算机而言可能是具有挑战性的,这主要是由于WSI存在颜色变化和伪影,而且,难以检测到诸如肺泡组织,脂肪组织和染色不良的组织。癌症区域分割是病理医生计算癌症阳性率并分析癌变症状的基础,因此癌症区域分割结果的好坏会直接影响到病理医生的
学位
互联网在给人们提供巨大便利的同时,其数据真实性、完整性等问题也随之出现。由于互联网数据易被篡改、被破坏,管理方难以维护其真实性与完整性。而区块链技术有着去中心化、防篡改、安全透明等天然特性且具备高公信力,可有效确保数据完整性、真实性,非常适用于数据存证类应用场景。因此,各方都寄希望于区块链以满足其存证需求。但若各应用场景都建立、维护各自的底层链,便会造成数据孤岛、底层链耦合度高、通用性差等问题。本
学位
缺陷检测是工业上非常重要的一个应用,与此同时,卷积神经网络在特征提取和定位上取得巨大成就。因此深度学习在目标检测领域取得了长足的发展,使得瓷砖表面缺陷检测成为一个有潜力的研究方向。但是瓷砖瑕疵检测依然受到检测目标中小目标较多,形状多变且不规则,特征不明显等因素的困扰,企业在生产制造的过程中依然无法避免的生产出具有各类瑕疵的瓷砖。如何解决以上种种问题,提高小目标瑕疵检测的精度是亟需解决的难题。本文主
学位
人脸表情作为一种表达情绪的载体,在日常人际交往中起到了重要作用。现如今,人脸表情识别技术广泛应用于人机交互、智慧驾驶、医学等领域。随着深度学习技术的发展,基于卷积神经网络的方法正成为主流的表情识别方法,但依然存在表情识别准确率不高以及不同个体之间的脸部特征和表情差异大等问题。针对上述问题,本文进行了人脸表情识别研究,主要研究工作如下:(1)针对VGG16深度卷积神经网络存在表情特征提取不够充分的问
学位
帕金森病作为一种慢性的神经退行性疾病,其导致大脑中的黑质和纹状体发生病变,由此产生的相关症状严重影响了患者及其家庭成员的正常生活。鉴于帕金森病当前仍无法被治愈。因此,精确、可靠的早期诊断方法对于减缓帕金森病的进展、改善患者健康状况发挥着至关重要的作用。面部表情障碍作为帕金森病的早期运动症状之一,使得帕金森病患者与正常人在面部表情表达上存在明显差异。在临床诊断中,由于面部表情障碍评估任务主观性较大,
学位
图像去模糊的研究已经有了诸多进展,深度学习在图像去模糊领域上也颇有建树,但是纵观深度学习的去模糊方法,或是因为模型结构较为简单,导致去模糊的效果难如人意,产生了诸如伪影、丢失边缘纹理等问题;或是因为模型结构过于复杂,导致其适应性较差,难以将其广泛应用于各类场景中。在这一背景下,本文基于经典的深度多尺度卷积神经网络(DMCNN),提出了一个相对轻量级的多尺度去模糊网络。本文所做的主要工作如下:(1)
学位