面向食物计算领域的跨模态菜谱检索

来源 :四川大学 | 被引量 : 0次 | 上传用户:tb881011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及以及大规模食物数据的涌现,为了有效获得所需的食物信息,食物计算领域的跨模态菜谱检索得到了广泛关注。跨模态菜谱检索是食物图像和菜谱之间的相互检索,跨模态菜谱检索的难点在于食物图像和菜谱之间的关系极为复杂:有较多的食物图像外观相似且部分图像存在着干扰信息;在烹饪过程中有的食物配料变得不可见或者配料外形会发生变化;烹饪指示中暗含着配料与食物成品图像的某种关系。现有研究方法存在的问题:1.由于图像和菜谱的特征提取器均是独立的,存在单模态信息缺失和特征之间缺少交互的问题;2.部分研究使用two-stage的方法将图像和菜谱映射到语义空间,针对语义空间构建的研究使用到的语义信息仅覆盖了约一半的数据集,语义信息较为粗糙。针对现有研究方法存在的问题,本文提出两个解决策略:针对问题1:本文提出基于注意力机制和隐式对齐的跨模态菜谱检索策略,该策略分别对图像和菜谱的特征提取器添加注意力模块用于深刻理解图像和菜谱表达的内容,由于图像和菜谱的特征提取器、注意力机制均是独立的,针对该问题提出一种隐式对齐模块,解决单模态信息缺失和特征之间缺少交互的问题。针对问题2:本文提出一个one-stage的策略,名为基于双重语义的跨模态菜谱检索,该策略使用类别和标题来构建语义空间。引入标题是为了弥补类别语义较为粗糙的问题,缩小图像和菜谱之间的语义差异;现有研究使用分类网络来学习类别语义空间,本文将类别语义融合进损失函数使具有相同语义的图像和菜谱在同一个语义空间。本文提出的两种策略,有一定的互补性,将两种策略提取出的嵌入进行融合,提出基于融合的跨模态菜谱检索,在最好的情况下,基于融合的跨模态菜谱检索比现有最好的方法提高了6.4%。
其他文献
随着信息技术的不断普及,越来越多的案件需要使用到电子证据,从网络诽谤到电信诈骗等,电子证据成为破解此类案件的关键。然而电子证据极具脆弱性,十分容易被损坏。传统的电子证据存取证系统存在中心化存储、数据流向不透明、自动化程度不高等问题。并且普通大众缺乏举证能力,遭遇侵权时往往不知如何存证、取证,因为不规范的证据保全可能会导致证据失去法律效力。区块链技术具备数据不可更改、多方维护等特点,有效地解决了电子
阴影技术作为重要的渲染技术之一,在帮助人们理解三维空间中物体的几何形状、大小、及相对位置起着至关重要的作用。由于符号距离场具有能够表达三维空间场景信息的特点被广泛应用于渲染高质量的软阴影效果。然而,现有利用符号距离场进行软阴影渲染的算法由于遮挡率估计不准确,造成半影收缩等问题。针对该问题,在充分研究一阶符号距离场特点的基础上,本文提出了一种基于一阶符号距离场的软阴影改进算法。其基本思想是,通过一阶
随着工业大数据规模的不断扩张,面向工业场景下的大数据智能分析应用逐渐兴起。但在实际应用中,工业数据存在规模量大、分布不集中、结构复杂且类型多样的问题,且由于企业数据分布不均和数据管理能力不佳等因素,使企业在进行所需的数据分析时受到阻碍。因此,如何进一步挖掘工业数据价值成为关注焦点。通过构建数据共享(Data Sharing,DS)平台,加强优势企业的合作和数据开放,可以有效解决企业间的数据孤岛问题
人脸识别技术是计算机视觉领域的一个重要研究方向,有着无接触性、信息采集成本低、自动化程度高等优势,在越来越多的实际场景中都得到了应用。目前为止对于限制场景下的人脸识别技术已经较为成熟,但是对于非限制场景下的人脸识别仍然是一项挑战。其中,复杂的光照条件使得人脸图像出现大范围阴影,图像质量变差;图像中的人脸存在平面旋转、位置偏移、小幅度姿态变化引起识别精度降低;如何全面地利用人脸图像的信息将多种特征进
立体视觉是通过模拟人类的双目视觉,获取环境深度信息的任务,它的原理主要是通过计算成像和数学建模预测物体在三维空间中的深度,以达到还原场景三维信息的目的。立体视觉作为计算机视觉当下最为火热的研究方向之一,被广泛应用在自动驾驶、虚拟现实、增强现实、三维测量与三维重建等热门领域。在计算机立体视觉中,最为常用的方法是双目立体视觉。双目立体视觉的难点在于如何正确建立双目图像之间所有像素的一对一的映射关系。因
精准农业以物联网为基础,通过部署传感器和研究人工智能技术来控制果实/农作物的生产过程,主要包括:农业产量估测、农作物智能化病害检测以及生长过程品质监控等,以更低的成本提升果实产量等级,经济效益更大化。当前,针对葡萄视觉产量预估的工作主要是从基于检测的葡萄串检测和基于回归的葡萄颗粒计数这两个方面进行开展的。然而,这两类方法相对独立,且覆盖场景有限,并伴随着较大的产量预估误差。对此,提出了串-粒融合的
近年来,随着监控摄像头的普及和城市安防的需要,行人重识别成为了计算机视觉领域越来越重要研究的课题。其潜在的应用领域也越来越宽广,在刑侦破案、智慧城市、无人超市等领域有着广泛的应用前景。早期的行人重识别技术是通过手工提取行人图像的特征,如今基于深度学习的方法在行人重识别技术上应用已成为研究的热点。针对行人重识别,相关研究者已经做了很多的工作,然而依然存在一些需要解决的问题。一方面行人重识别数据采集困
随着现代计算机视觉的不断进步和发展,三维重建技术引起了学术界和产业界的广泛关注,在模型缺陷检测、智能机器人视觉、3D打印等领域有着非常广泛的应用,尤其是对室内场景进行实时稠密的高质量的三维重建是机器人、增强现实等领域关注的重点。三维重建算法可大致分为双目立体视觉的三维重建和基于RGB-D传感器的实时三维重建。基于双目立体视觉的三维重建,一般是通过多个视角的观察数据帧和帧间的视差信息来计算出物体的深
随着测序技术的发展,生物大分子序列数据量也飞速增长。数据挖掘作为从庞大的数据中提取出未知、隐含及具备潜在价值的信息的技术,被广泛应用于生物信息领域,用于探索其生物意义。其中,三维基因组学是近些年来基因领域的研究热点,研究表明基因组的三维结构与基因的转录调控以及表观遗传存在相关性,然而物种间的基因组三维结构的比较分析尚未在植物中得到广泛研究。因此以杨树为例,使用数据挖掘技术对胡杨和新疆杨进行三维基因
染色体图像分类,是临床上进行染色体分析的关键步骤之一,在遗传疾病的诊断和肿瘤学研究中具有重要意义。得益于计算机技术的发展和进步,使用计算机进行自动化的染色体分类,成为了近年来的热门研究。染色体是非刚性物体,容易发生弯曲,弯曲的染色体会影响网络的精确率,需要对弯曲的染色体进行矫直。现有的染色体矫直方法主要分为切割矫直法和骨骼关联矫直法,这两种方法存在一些局限性:切割矫直法,通过切割图片矫直染色体,会