基于深度学习的食品Logo检测方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:xuesuifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的不断发展,卷积神经网络被广泛应用于很多科研领域,深度学习技术已成为解决计算机视觉领域问题的有效手段之一。当前,目标检测在智能视频监控、机器人导航、航空航天等领域中发挥着较大的作用,被研究者广泛关注。大数据时代的到来,数据量呈指数级增加,同时图形处理器(GPU)等硬件设施的更新迭代带动了目标检测算法的快速发展。Logo检测作为目标检测的一个分支,从图像中检测出Logo是确定品牌最具特色和最有效的方法之一。然而,由于Logo在图像尺度、几何形状、外观以及拍摄角度等方面存在很大的差异,使得Logo检测仍然是一个具有挑战性的问题。现实中品牌Logo的种类众多,食品Logo是生活中最常见的类别之一,同时食品Logo检测在现实生活中有着广泛的应用,如自助商店的食品推荐、电商平台的侵权检测以及针对性广告投放等。与普通Logo相比,食品Logo存在更多样的类间相似性以及更复杂的多尺度问题。本文针对食品Logo检测,通过构建食品Logo数据集和食品Logo检测算法的方式开展工作,具体分以下3个步骤:(1)数据质量是深度学习算法发挥作用的重要基础,为了开发先进的食品Logo检测算法,需要大规模的食品Logo数据集作为支撑。然而,目前尚无公开的食品Logo数据集。为此,本文构建了Food Logo Det-1500数据集,是目前规模最大、可公开下载的食品Logo数据集,该数据集有1,500个类别、大约10万幅图像和15万个手工标注的食品Logo目标。本文详细介绍了数据集的收集、清理和标注过程,分析了数据集的规模和多样性,并与其他Logo数据集进行了比较。据调研,Food Logo Det-1500是第一个用于食品Logo检测的最大的公开可用的高质量数据集。(2)本文提出了一种基于多尺度特征解耦网络的食品Logo检测模型(Multi-scale Feature Decoupling Network,MFDNet),实现对食品Logo的精确检测。该方法将分类任务与回归任务解耦成两个分支,解决食品Logo多类别检测问题。具体来说,引入了特征偏移模块(Feature Offset Module,FOM),该模块利用变形学习来获得最优的分类偏移量,在检测时可以有效地获得最具代表性的分类特征。此外,还使用了平衡特征金字塔模块(Balanced Feature Pyramid,BFP),它关注全局信息,增强了特征提取能力,并对多尺度特征的融合进一步增强,加强了对多尺度食品Logo的检测能力。(3)最后,本文在三个数据集上进行了广泛的实验评估,包括提出的Food Logo Det-1500和其他两个广泛使用的Logo数据集QMUL-Open Logo与Flickr Logos-32。实验结果验证了Food Logo Det-1500食品Logo数据集的有效性以及本文提出方法的可行性。
其他文献
随着云计算、大数据等技术的发展,分布式计算场景下的多源数据充分发挥着它的社会和经济价值。在最大程度地发掘多源数据价值的同时,也不可避免地要考虑其隐私泄露问题。在保护数据隐私性方面,安全多方计算(Secure Multi-Party Computation,SMPC)扮演着不可替代的角色,其本质上是从协议层面考虑隐私保护问题。安全两方计算是安全多方计算的一种特殊情况,其目的是在保证双方的隐私数据不被
学位
受益于光子独特的优势,光计算技术在构建高速、高算力和高能效比的专用计算加速器方面被寄予厚望,目前已经涌现出了许多极具吸引力的方案。特别是对于涉及运算量巨大的二维矩阵-矩阵乘加操作的专用场景,光计算有望在算力和能效比等方面实现超越当前最先进电子计算机几个数量级的性能提升。不同于电子计算通过构建逻辑门实现通用数字计算,主要受深度学习驱动而复兴的光计算更倾向于模拟计算。本文从模拟和数字光计算的角度出发对
期刊
癫痫是一种常见的神经性疾病,其发病原因是大脑神经细胞异常放电所导致的神经系统短暂性紊乱,其危害巨大,潜藏着致命的伤害。在传统的癫痫病诊断中,医生凭借其专业技能,通过对脑电图(Electroencephalogram,EEG)的分析来进行癫痫诊断,但人工检测的方法存在费时费力的弊端,因此,新兴的自动癫痫检测技术成为了研究热点。论文利用基于深度学习的癫痫检测算法来实现EEG的自动分析。研究表明,各个脑
学位
切换系统作为一类具有多模态特性的系统模型,能够为许多实际工业过程进行系统建模,同时切换系统的研究也为其他复杂系统提供了研究思路,因此切换系统具有重要的理论研究价值和实际工程应用价值。具体来说,切换系统是由多个子系统以及切换规则组成的,切换规则的存在增加了系统稳定性分析的难度,因此如何为切换系统设计有效的控制策略是一个具有挑战性的课题。另一方面,未知非线性和不确定性广泛存在于实际工业系统中,这些因素
学位
基于全光信息处理的光学人工智能系统在目标识别等领域均具有巨大发展潜力。与传统的基于计算机平台的深度神经网络相比,光学人工智能系统将对光学目标进行相应的识别处理,相对于数据集图片的强度信息,光学目标样本还具有波长、相位、偏振等实际物理信息。因此为生成更加一般化的真实光场目标,进一步优化光学人工智能系统面向真实物理场景性能,本文进行如下工作:(1)分析并研究了光场重建的几种不同方案,并对其器件发展及研
学位
生物识别技术作为一种新型的身份认证技术,广泛地应用于访问控制和权限管理的领域。目前生物识别的研究更多关注于识别的准确性和高效性,往往忽视了生物特征信息的隐私保护。由于生物特征模板具有唯一性、不可撤销性且与身份隐私信息密切相关,在生物认证过程中容易引起攻击者的窃取、伪造甚至假冒用户身份访问系统的在线资源,导致严重的隐私泄露风险。基于现有的椭圆曲线加密算法(Elliptic Curve Cryptog
学位
随着城镇基础设施的完善,公共场所也逐渐增多。因此,公共场所内的群体安全问题也逐渐受到人们的重视。当意外情况发生时,处于危险中的人群在缺乏正确引导的情况下可能会产生严重的恐慌情绪,在盲目的逃生中相互拥挤进而引发踩踏事故会造成重大伤亡。因此,如何在意外情况下减小踩踏事故的发生概率是一个亟需解决的问题。计算机仿真技术可以模拟疏散过程并为意外情况下的人群疏散提供决策支持。因此,人群疏散仿真技术在解决紧急情
学位
癫痫是由大脑中枢神经元异常放电引起的神经系统疾病。当癫痫发作时,病人会突然失去意识并全身抽搐,若不及时采取抢救措施,则会危及生命。随着医疗设备的进步与机器学习的快速发展,基于脑电图(Electroencephalogram,EEG)的癫痫自动检测方案逐渐替代了传统的人工诊断。最新的神经医学研究表明,大脑不同区域之间存在着相互影响机制。现有的癫痫检测算法考虑了多通道脑电信号时间维度层面的特征,但忽略
学位
由于在军事、航天、农业、工业等领域的重要应用,自动化和智能化的控制理论一直受到各国的广泛重视。然而,随着各行各业对控制系统性能要求的不断提高,传统的线性反馈控制已经很难满足各种实际的控制需求,其原因是大多数实际控制系统本质上是非线性的,例如质量-弹簧-阻尼器系统,航空航天系统,机器人系统等。另外,许多实时应用平台需要严格的时间调度来限制控件的响应时间,例如一个机器人必须在每一个指定的时间内到达一个
学位
在信息化时代,数据信息呈现出爆炸式增长的趋势,进而产生了具有多种特征描述的多视图数据。面对海量数据,如何有效的将数据按照相似性进行分类以减少数据的杂乱程度,以便更好的帮助学者分析和利用数据的潜在价值显得尤为重要。多视图聚类方法能够从不同的角度描述数据的特征,有效揭示数据的内部结构,通常具有比单视图聚类方法更优的聚类性能,因此其在多视图数据分析中的应用越来越广泛。目前,子空间聚类在处理多视图数据聚类
学位