基于跨模态图像文本检索的烹饪食谱与食物图像融合研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:kfqwyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络、自媒体平台和移动平台的快速发展,图像、文本、音频和视频等多模态数据进入爆炸式增长阶段。多模态数据高效、准确检索的需求日益增加,使得跨模态检索成为学术研究的前沿和热点。跨模态食谱检索是跨模态检索的研究范畴之一。近年来,跨模态检索在烹饪领域的应用因大量可用数据及深度学习的发展而引起广泛研究。跨模态食谱检索本质上属于跨模态学习问题。论文主要研究工作是基于跨模态图像文本检索的烹饪食谱与食物图像融合研究。论文结合深度学习技术,针对跨模态食谱与图像检索任务进行研究,改进在JNE_SR模型中的特征表示不足,提出了行之有效的文本编码器与检索模型,提升了食谱文本、图像两种模态数据在特征共享空间表达能力,进而提升图文跨模态检索模型的检索性能。论文主要工作如下:
  1.提出了文本邻居编码器TNE(TextNeighborEncoder)是基于全局最近邻文本特征表示方法。TNE创新性得将注意力机制与N近邻文本相结合,基于注意力机制赋予邻居动态权值以捕获邻居重要信息,通过加权求和获取邻居关键信息,从而实现了文本特征提升。实验结果表明,基于TNE构建的跨模态食谱检索模型,检索的评价指标中位数检索排序MedR最高可降低7.8,验证了TNE能够有效提升食谱文本描述。
  2.提出了基于长短期记忆网络文本邻居检索模型——LSTM-TN模型。论文基于JNE_SR模型对特征表示建模的不足进行改进,提出LSTM-TN模型。该模型基于长短期记忆网络使用TNE模型对食谱文本进行建模,完成食谱与图像数据跨模态模型的构建。实验结果表明,LSTM-TN模型在评价指标R@1上平均提高了2%,验证了LSTM-TN模型的有效性。
  3.提出了融合N近邻文本的门控循环单元网络模型——FT-GRU模型。论文基于JNE_SR模型的特征嵌入学习的不足,提出FT-GRU模型。该模型将N近邻和注意力机制结合,能有效的针对食谱与图像两种模态数据进行跨模态检索模型构建。实验结果表明FT-GRU模型性能优于已有的多种模型并且与LSTM-TN模型相比评价指标MedR最高降低了2.3,验证了FT-GRU模型具有收敛更快,性能更好的表现。
其他文献
张等人为有效求解时变问题于2002年提出了一类特殊的递归神经网络—零化神经网络(Zeroing Neural Network,ZNN)。ZNN的提出解决了梯度神经网络(Gradient Neural Network,GNN)及其它传统方法在求解时变问题时,所合成的神经网络解无法精确收敛到理论解的问题。然而,在RNN的实现中,总是存在一些比理想情况复杂的实现误差,例如高概率出现的微分误差和模型实现误
无线传感器网络(Wireless Sensor Networks,WSNs)是人们感知世界获取多元信息的重要方法,已经被广泛应用到各种场景中,成为信息科学领域探索钻研的热点。但是,由于节点能量有限使得网络生命周期受到节点电池寿命的约束,所以与其它无线网络相比节能问题至关重要。数据链路层中的媒体接入控制(Medium Access Control,MAC)协议可以解决多个节点如何利用共享信道进行通信
近年来,机器学习在人工智能领域取得了巨大进展,但许多机器学习模型被构建为“黑盒”类型的模型,这种情况使用户很难去理解模型系统的内部逻辑。这种缺乏解释的情况既是一个实际问题,也是一个道德问题。模型可解释性在一些特定领域是有强烈需求的,尤其是在金融、医疗、反欺诈等领域。  模型可解释性的研究已经出现了一段时间,但目前对于机器学习的可解释性学习的研究,大部分研究存在于监督学习领域,尤其在近几年,深度神经
学位
随着Android智能手机越来越受大众的喜爱,Android恶意软件给用户带来的不良影响日益严重。为牟取利益而采取的恶意扣费、系统破坏、隐私窃取等恶意攻击手段层出不穷。如何有效的检测Android操作系统上的恶意软件是众多研究者所关注的一个研究重点。恶意软件分析技术主要包括静态分析和动态分析两类,考虑到时间效率等原因,本文基于静态分析来开展相关工作,提出了两种检测方案,并通过实验验证了它们的可行性
学位
音频场景分类(AcousticSceneClassification,ASC)问题主要是根据场景的音频记录来识别声音环境。这些声学场景可以根据特定的地理环境(如海滩、公园、道路等)、室内或室外场所(餐厅、办公室、家庭、市场、图书馆等)的特定社会情景以及特定的交通工具(汽车、公共汽车、电车等)来定义。声学场景的分析与识别,由于其简单方便,通过识别其所对应的特定场景语义标签,可以达到感知和理解周边环境
随着经济和互联网技术的飞速发展,推动者金融的互联网化,银行等金融机构也由此推出了多元化的借贷产品,给人们的生活带来了很大的便利。面对巨大的交易量和交易额,随之而来的就是欺诈风险的不断提升,所以对于加强风险控制,防范欺诈,建设一个健壮的金融风控系统,对于企业的长久发展是十分重要的。风险控制往往要根据市场的变化进行快速的更新迭代,传统风控系统传统金融风控系统中采用硬编码的方式来实现风控规则,存在着规则
工作流模式表达了工作流的基本结构特征,对工作流模式的支持是衡量工作流产品在过程表达能力和适用性方面的重要标准。目前的工作流产品对不少复杂的工作流模式尚不能很好的支持,尤其是缺乏对工作流模式进行形式化描述的方法。另一方面,工作流提倡业务逻辑与过程逻辑相分离的理念,但在实际的工作流系统中,与业务相关的过程逻辑却往往和程序代码混合在一起,难以分离,当业务发生变化时,工作流系统的重构工作就变得非常困难。 
学位
布尔函数是许多密码系统的核心部件,其密码学性质优劣决定着整个密码系统的安全性强弱。为了抵抗各种已知攻击,布尔函数需同时满足几条性质:平衡性,良好的(快速)代数免疫度,高非线性度和高代数次数等。旋转对称布尔函数是一类输出在输入的循环移位下保持不变的布尔函数,具有结构简单、运算速度快、易于实现等优点,在密码系统中应用广泛。择多逻辑函数是结构最简单的具有最优代数免疫度的布尔函数,其快速代数免疫度仍然是个
学位
近年来,云计算环境的安全问题研究已成为一个研究热点,访问控制技术是解决云安全问题的有效方式。本文在传统的RBAC模型基础上,设计一个基于身份认证和信任区间的云环境下访问控制模型。模型分为两个部分,第一个是会话部分,第二个是授权部分。第一部分通过ECC口令身份认证方案,实现用户和云服务器中角色的会话关系。第二部分利用信任区间的概念,实时考察角色行为的可信程度,从而为角色授予相应的权限。  目前云认证
学位
乳腺癌是最常被发现的癌症之一,它威胁到女性的健康和生命。早期准确的疾病诊断在癌症治疗中起着重要作用。临床研究表明,如果在早期阶段检测到癌症,它可以相对容易地治愈而不会对患者造成太大伤害。超声成像是检测乳腺癌的一种方法。医疗超声波使用人体无法听到的高频声波(>20,000Hz),将脉冲发送到人体组织中并以不同的属性反射回来被记录并显示为图像,是一种观察人体内肿瘤和其他异常等疾病的便捷工具。本文的主要