论文部分内容阅读
随着生活质量提高,越来越多的人开始注重健康饮食,这就需要对食品有更加深入的了解,而食品识别技术可以在这方面更好地帮助人们。食品识别技术已开始在实际生活中应用,比如智慧餐厅、智能冰箱和膳食推荐等。然而,人工智能热潮背景下的食品识别技术仍然存在一些问题,比如食品图像识别准确率不高、识别的食品种类较少等。因此,如何改进大规模食品图像识别性能成为食品识别领域最关注的课题之一。尽管很多研究人员已经在食品识别方面做了大量工作,但与实际应用的期望还有一定差距。造成差距的原因有很多,两个主要原因是:目前食品图像数据集规模较小;尚无完全有效适合食品识别的方法。针对以上两个问题,本文从数据集构建和识别方法两个方面进行了研究和探讨,主要研究内容和贡献如下:(1)构建了一个大规模食品图像数据集:数据集是各种技术方法的重要基础,一个高质量数据集能够为方法有效性验证提供关键保障。考虑到现有食品图像数据集规模较小,本工作从食品种类概念体系构建、数据收集、数据清洗到扩充和验证分析数据,系统化地构思和构建了一个大规模食品图像数据集ISIA Food-500,这个数据集包含来自500类食品的405,776张图片,食品种类覆盖各大洲共52个国家。现有基准食品图像数据集包含食品种类和图片量较少,相比之下,ISIAFood-500数据集在图片量、种类数和可拓展性等方面具有较大优势。(2)提出了一种基于堆叠多尺度多注意力网络(Stacked Multi-Scale Multi-Attention Network,SMSMANet)的识别方法:考虑到现实很多情况下,人们偏向于视觉的食品图像识别,而且食品图像类间差异小、类内差异大等属性也需要一个既关注整体全局特征又注重细节局部特征的食品识别方法。本工作提出一种堆叠多尺度多注意力网络来进行食品识别,该方法以图像模态为输入,利用空间和通道注意力机制,结合多尺度策略,共同学习图像的全局特征和局部特征进行食品识别。作者通过大量实验证明了堆叠多尺度多注意力网络的有效性。