论文部分内容阅读
随着社交网络、自媒体平台和移动平台的快速发展,图像、文本、音频和视频等多模态数据进入爆炸式增长阶段。多模态数据高效、准确检索的需求日益增加,使得跨模态检索成为学术研究的前沿和热点。跨模态食谱检索是跨模态检索的研究范畴之一。近年来,跨模态检索在烹饪领域的应用因大量可用数据及深度学习的发展而引起广泛研究。跨模态食谱检索本质上属于跨模态学习问题。论文主要研究工作是基于跨模态图像文本检索的烹饪食谱与食物图像融合研究。论文结合深度学习技术,针对跨模态食谱与图像检索任务进行研究,改进在JNE_SR模型中的特征表示不足,提出了行之有效的文本编码器与检索模型,提升了食谱文本、图像两种模态数据在特征共享空间表达能力,进而提升图文跨模态检索模型的检索性能。论文主要工作如下:
1.提出了文本邻居编码器TNE(TextNeighborEncoder)是基于全局最近邻文本特征表示方法。TNE创新性得将注意力机制与N近邻文本相结合,基于注意力机制赋予邻居动态权值以捕获邻居重要信息,通过加权求和获取邻居关键信息,从而实现了文本特征提升。实验结果表明,基于TNE构建的跨模态食谱检索模型,检索的评价指标中位数检索排序MedR最高可降低7.8,验证了TNE能够有效提升食谱文本描述。
2.提出了基于长短期记忆网络文本邻居检索模型——LSTM-TN模型。论文基于JNE_SR模型对特征表示建模的不足进行改进,提出LSTM-TN模型。该模型基于长短期记忆网络使用TNE模型对食谱文本进行建模,完成食谱与图像数据跨模态模型的构建。实验结果表明,LSTM-TN模型在评价指标R@1上平均提高了2%,验证了LSTM-TN模型的有效性。
3.提出了融合N近邻文本的门控循环单元网络模型——FT-GRU模型。论文基于JNE_SR模型的特征嵌入学习的不足,提出FT-GRU模型。该模型将N近邻和注意力机制结合,能有效的针对食谱与图像两种模态数据进行跨模态检索模型构建。实验结果表明FT-GRU模型性能优于已有的多种模型并且与LSTM-TN模型相比评价指标MedR最高降低了2.3,验证了FT-GRU模型具有收敛更快,性能更好的表现。
1.提出了文本邻居编码器TNE(TextNeighborEncoder)是基于全局最近邻文本特征表示方法。TNE创新性得将注意力机制与N近邻文本相结合,基于注意力机制赋予邻居动态权值以捕获邻居重要信息,通过加权求和获取邻居关键信息,从而实现了文本特征提升。实验结果表明,基于TNE构建的跨模态食谱检索模型,检索的评价指标中位数检索排序MedR最高可降低7.8,验证了TNE能够有效提升食谱文本描述。
2.提出了基于长短期记忆网络文本邻居检索模型——LSTM-TN模型。论文基于JNE_SR模型对特征表示建模的不足进行改进,提出LSTM-TN模型。该模型基于长短期记忆网络使用TNE模型对食谱文本进行建模,完成食谱与图像数据跨模态模型的构建。实验结果表明,LSTM-TN模型在评价指标R@1上平均提高了2%,验证了LSTM-TN模型的有效性。
3.提出了融合N近邻文本的门控循环单元网络模型——FT-GRU模型。论文基于JNE_SR模型的特征嵌入学习的不足,提出FT-GRU模型。该模型将N近邻和注意力机制结合,能有效的针对食谱与图像两种模态数据进行跨模态检索模型构建。实验结果表明FT-GRU模型性能优于已有的多种模型并且与LSTM-TN模型相比评价指标MedR最高降低了2.3,验证了FT-GRU模型具有收敛更快,性能更好的表现。