基于深度学习的中餐图像识别的研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zilong2006min
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于中餐图像识别的研究一直是计算机视觉领域的热门研究方向,未来将在智能家居、智慧医疗健康等领域具有很好的应用前景。随着深度学习的蓬勃发展,中餐图像识别发展迅速,但由于中餐图像的复杂性和背景噪音等问题,如何高效准确地提取中餐图像关键语义特征、对多目标中餐图像精确高效检测、基于图像对食物进行热量预测等问题仍然是一个巨大的挑战。针对这些问题,本文的主要研究工作如下:针对单目标中餐图像识别问题,提出一种基于注意力机制的特征提取和学习算法,能够提高对图像可区分性语义特征的提取能力和对关键区域特征学习的能力,减小图像噪声,增强特征的显著性。与经典深度学习卷积神经网络的性能进行对比,该算法显著地提高了中餐图像识别精度,在VIREOFood-172扩展数据集上的准确率为87.6%。针对多目标中餐图像识别问题,基于Mask R-CNN算法,提出一种基于深度分离卷积机制算法,并改造优化其骨干网络,最后通过在COCO数据集和中餐图像目标检测数据集上进行对比实验,对模型大小和训练消耗时间的评估比较发现,改造后的Mask R-CNN可以显著降低计算资源,并能够在一定程度上避免因网络复杂度增加而导致的性能下降,提高了检测效率而且能保证准确性。针对热量预测问题,提出一种基于能量分布的食物热量预测算法,并使用改进后的Mask R-CNN用于检测食物和校准对象并进行分类,有效地提高了检测精度,减少了食物热量估算中体积估算的误差。经过在ECUSTED数据集上进行相关实验,得出当IOU阈值为0.75时候所有类别的检测分类达到最好的效果的结论,与所对比的热量预测方法相比,本文所提算法误差率减小了 10%以上,验证了该算法在热量预算方面具有较好的性能。
其他文献
近年来,随着大数据、人工智能的蓬勃发展,教育形态发生了深刻的变革,在线教育发展迅速,各类在线学习平台应运而生。在线学习平台提供了海量学习资源的同时,如何为学生推荐适合自身的学习内容也成为一个难题。教育领域现有的个性化推荐研究存在诸多问题:研究内容上,现有教育领域的个性化推荐目标多为提升点击率,如推荐学生感兴趣的课程,此类研究无法帮助学生加强其对薄弱知识点的掌握,进而有效提升学习表现;研究方法上,一
符号动力学是一个描述混沌行为非常有用的工具,他能够捕捉系统的拓扑特性同时忽略系统内部间的复杂行为。但是问题是对于一个混沌系统很难得到一个合适的符号划分,尤其当高维系统上稳定和非稳定流形间的行为更为复杂且相互影响时。所以在这篇论文里,我们提出了一个新的方法能有效的帮助我们解决高维符号划分的问题。我们的方法仅依赖于非稳定流形,从而避免了高维稳定流形所带来的干扰。同时我们在每一层的非稳定流形上去寻找其关
随着网络社交的普及,网络谣言会对社会造成非常大的影响。如何准确识别网络社交平台上的谣言对维护社会的秩序显得尤为重要。现阶段对于网络谣言主要是通过传统的机器学习方法或基于深度学习的模型进行检测,这些方法受评论的指向性问题和因序列过长导致的特征不完整问题的影响,对于网络谣言的判别还未能达到比较高的准确率。本文针对上述问题提出了网络谣言检测中相应的改进方法,并使用预训练模型进行微调来加快模型的收敛,在一
当今时代,互联网和云计算的蓬勃发展让数据中心扮演着非常重要的角色。数据中心网络因为可靠性和健壮性的要求,服务器间拥有多条路径,但是传统的数据中心网络拥塞控制机制无法充分利用这些可选路径,也无法有效地解决数据中心的拥塞问题。所以软件定义网络(Software Defined Networks,SDN)网络架构逐渐在数据中心网络中被广泛地使用。SDN可以获取网络的全局信息,更好地监测网络状况并且制定拥
视频信息为车辆的智能化和网联化提供了丰富的信息,视频数据中包含的信息需要通过内容理解与分析来获取,这使车联网视频内容的理解与分析逐渐成为一种趋势,提高视频内容理解的精度成为推进车联网发展的重大挑战。同时移动边缘计算(Mobile Edge Computa-tion,MEC)的发展为车辆提供了大量的计算资源,弥补了车辆计算能力的不足,因此如何利用移动边缘计算来提高视频内容理解精度成为重要的问题。车联
无人机、自动驾驶等越来越多的领域都需要设备小型化和功能多样化,并且需要同时具有雷达传感功能和通信功能,这产生了对雷达和通信一体化设计的强烈需求。同时随着雷达系统和通信系统的快速发展,两者不仅在运行频段上逐渐产生了重合,并且在系统结构上也出现了很多相似点,这让实现雷达通信一体化系统成为了可能。本文研究了基于正交频分复用(Orthogonal Frequency Division Multiplexi
近几年来,在人脸识别领域,基于深度学习的人脸识别的性能比人类还要好,并且已经被广泛应用到很多现实场景中,如手机解锁、机场安检等。因此,研究真实世界中人脸识别模型的安全问题尤为重要。ArcFace作为性能堪比商业级人脸识别系统的开源模型,部分学者已经验证并实现了在真实世界中对该模型的白盒逃逸攻击,但暂未验证是否可以实现难度更高的白盒模仿攻击。本文为探究上述问题,以基于ArcFace模型的人脸验证系统
行人检测是计算机视觉领域的一项重要任务,其在车辆辅助驾驶、视频监控、智慧交通以及智能机器人等领域都有着巨大的研究价值和应用前景。近年来,基于卷积神经网络的行人检测算法快速发展,行人检测模型的性能不断提升。然而,高精度的行人检测模型往往存在模型体积较大、计算成本较高和检测实时性差等问题,难以适应行人检测各种应用场景的要求。本研究旨在提高行人检测算法的检测精度与速度,并结合模型压缩技术降低模型的部署成
中国移动通信技术的显著进步使得基于无线定位的位置服务(LBS)有了更大的发展空间。相较于GPS等卫星定位系统,基于无线网络的终端无线定位具有成本低、方便快捷的优势,并且在紧急救助、网络优化等领域以及疫情防控方面都有着突出的表现。本文主要研究基于指纹库和无线测量报告(MR)的室外用户定位问题,并设计开发出一个用户定位系统。具体地,本文针对指纹库定位中离线阶段指纹库的快速高效建立和在线阶段更加合理准确
在现代通信中,认知无线电展现出了其强大的生命力。将认知无线电与自组织网络相结合,既符合认知无线电的特点,也符合自组织网络的要求,于是认知自组网(Cognitive Radio Ad Hoc Networks,CRAHNs)的概念就此诞生。认知自组网由于其强大的适应性,可以被用在各种网络场景中,例如抗震救灾网络、物联网等。其动态的网络拓扑结构是影响其网络性能的重要因素。故而,研究认知自组网的网络拓扑