基于注意力机制的跨模态菜谱图文检索算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:thangna9806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
食物与人类生活和繁衍密切相关。烹饪视频、食物图片和菜谱等多媒体数据在互联网上广泛传播,为许多与食物相关的研究带来了机遇。本文主要研究的跨模态菜谱图文检索任务,旨在通过一个模态中的食物图像或菜谱来检索另一模态中最相关的菜谱或食物图像。图像与菜谱的互相检索是跨模态检索领域的一个重要子任务,实现食物在不同模态数据之间的联系可以进一步方便与食物相关的记录、追踪等,这对未来的智能健康应用有着重要意义。目前已有一些方法提出了可行的解决方案来实现图像-菜谱跨模态检索的目标。但是,由于食物图像的多样性与菜谱文本的多层级性,仍然存在一些难点亟需解决。食物图像的全局特征表示被广泛使用,这容易导致忽略信息丰富的细粒度食物图像区域。菜谱中食材和烹饪说明的关键信息通常同时出现,而它们各自独立的特征并不能很好地表示二者的联系。在跨模态特征学习上,将食物图像和菜谱投影到公共子空间中来学习特征的分布,缺乏二者直接的信息交互和融合。因此,本文重点关注以下三个方面:食材和烹饪说明之间的关联、细粒度的图像信息以及菜谱和图像之间的潜在对齐。首先,本文提出了一种新的框架,称作模态内和模态间交叉注意力机制下的混合融合(HF-ICMA)模型来学习准确的图像-菜谱相似性。菜谱模态内的融合模块被用于促进食材和烹饪说明的信息交互。图像-菜谱跨模态融合模块用于探索细粒度图像区域和菜谱中食材之间的潜在关系。整个检索框架从局部和全局两个方面共同得出最终的图像-菜谱相似度。为了进一步简化跨模态菜谱图文检索模型并减轻训练负担,本文提出了一种新颖的轻量级框架:模态内和模态间自注意力机制下的混合融合(IMHF)模型。所提出的模型摒弃了单独的深度视觉编码器,通过应用Transformer模块以单一统一的方式处理图像和菜谱。通过这种方式,旨在从图像和菜谱中提取关联的有价值信息,实现模态内和模态间的信息融合并促进两种模式之间的直接信息交互。应用以上提出的两种算法模型,本文在被广泛使用的大型数据集Recipe1M上进行了大量跨模态检索实验。与现有的众多基线工作的实验结果对比表明本文所提出的方法在评价指标上超越了目前最先进的方法达到了当前最优的水平,具有卓越的检索表现。本文研究的跨模态菜谱图文检索任务,搭建了食物图像与菜谱的信息桥梁,可进一步用于食物相关的研究例如菜谱推荐、健康管理等。
其他文献
<正>他长得周正,个子比一般孩子高。他上课时想回答每一个问题。我心里暗想:这个孩子不错。可是,他的作业实在不敢恭维。"你来读给我听,你写的是什么?"我读不懂他疙疙瘩瘩的句子。"妈妈和老师都说我的缺点是多嘴。"他说话倒是顺溜。"多嘴?"我疑惑地问。"就是喜欢插嘴,喜欢说话。"他解释得很清楚。
期刊
期刊
面临全球金融危机、新冠疫情、环保压力、资金趋紧,此时也是企业强炼内功的时机。本文从全员营销、全力开发新产品、彻底削减成本、提高生产效率、以现金为王、构建网格化新型组织体系和激励机制六个方面入手,旨在打造企业数字时代下新型能力,构建企业持久核心竞争力。
“绿色”“可持续”“污染防治”等概念在政策文件、政府工作报告等重要工作中频繁出现,表明资源开发利用与环境保护在建设社会主义现代化进程中是不可忽视的问题,推动绿色发展,促进人与自然和谐共生是经济高质量发展的重要基础。本文从生态文明建设的视角出发,进一步阐述资源开发利用与环境保护对推动我国经济高质量发展中的重要作用,以及当前绿色发展中资源开发利用与环境保护之间存在的问题,并提出相应的对策和建议。
<正>所谓"班级座位我做主",就是一改常规的班级座位排法(按身高、性别、视力高低……),班级座位完全由孩子们做主。孩子们可以自由选择同桌,自由选择座位,说白了,就是想坐哪儿就坐哪儿,想和谁坐就和谁坐,唯一要求就是:如果课上随便讲话被别的任课教师批评了,就只能听从班主任的安排了。在一次班级自主调换位置时,发生了一个小小的插曲:班上个子最小的杨同学坐到了最后一排,小姑娘一下子哭了,怎么办?我把这个问题
期刊
章克标是1920年代至1930年代活跃于上海文坛的代表性作家。1926年,章克标参与创建了狮吼社;并于同年参与创办《狮吼》杂志;1930年代与同仁一起编撰《论语》《十日谈》《人言》等刊物,并自费出版杂文集《文坛登龙术》,风行一时。事实上,章克标的文学活动并不限于此,他还写过颇有特色的小说。除了写于1940年代的长篇小说《夷山野志》和几个短篇《梅花鹊》《晨》《翠绿色的死》外,章克标的小说基本上都集中
目的:通过分析近年来新生儿TORCH感染病例资料,了解福州地区TORCH感染现状,为新生儿相关疾病的诊断、治疗、预防和优生优育提供参考。方法:收集整理3 984例福州地区2017年1月~2021年12月就诊于福建医科大学附属福州市第一医院并进行了TORCH(IgG和IgM)血清学检测的0~28 d新生儿的数据进行回顾性分析。结果:TORCH-IgM阳性率为0.35%(14/3984),以巨细胞病毒
在初中英语教学管理工作中,教师要改变以往终结性评价、纸笔考试评价等评价方式,要重视形成性评价,基于评价主体、评价方法、评价内容、评价理念方面融入形成性评价方法,不仅要关注学生的英语学习成果,还要关注学生的学习过程,让他们在掌握英语学科知识与技能的同时,发展自身的英语学科能力、思维能力、实践能力,让学生在形成性评价中养成良好的英语学习习惯,掌握更多的英语学习技巧、学习方法,了解自己在英语学习活动中存
<正>去年我接了五年级的班。那天,刚刚上了一节语文课,下课后,我走进办公室,这时一个学生怯生生地走到办公室门前喊了声:"报告。""请进。"这个学生不好意思地走到我跟前,直截了当地说:"刘老师,我叫周正,我不会写作文,一写作文就害怕。听说您很会指导写作文,不知跟您能学会写作文吗?""能,能啊,这不,你的口头表达能力就不错嘛。"我热情并肯定地回答了他。
期刊