【摘 要】
:
近几年,随着人工智能与多媒体技术的飞速发展,人们的工作、生活以及娱乐在智能终端呈现出丰富的多模态样式,导致多模态数据呈爆炸式地增长,这些数据主要包括文本、图像、音频等。由此,跨模态检索的研究逐渐成为多媒体领域的一大热点。并且由于不同模态数据之间表示的形态不同,计算机难以理解不同模态数据分别表示的对应的含义是否相同,使得跨模态检索也成为多媒体领域研究的难点之一。
菜谱中不同模态数据相互检索是人们生活中普遍的应用。本文主要研究的是针对图像和文本的跨模态菜谱检索,它是指从将菜谱中的文本作为查询,从图像
论文部分内容阅读
近几年,随着人工智能与多媒体技术的飞速发展,人们的工作、生活以及娱乐在智能终端呈现出丰富的多模态样式,导致多模态数据呈爆炸式地增长,这些数据主要包括文本、图像、音频等。由此,跨模态检索的研究逐渐成为多媒体领域的一大热点。并且由于不同模态数据之间表示的形态不同,计算机难以理解不同模态数据分别表示的对应的含义是否相同,使得跨模态检索也成为多媒体领域研究的难点之一。
菜谱中不同模态数据相互检索是人们生活中普遍的应用。本文主要研究的是针对图像和文本的跨模态菜谱检索,它是指从将菜谱中的文本作为查询,从图像候选列表中检索对应图像,或者以图像作为查询,检索对应的文本。但是,现有的跨模态菜谱检索方法主要集中于分别学习图像和文本的表示,然后将它们投影到一个公共空间中进行整合。这些方法忽略了菜谱的图像和文本之间的相互作用,导致检索效果不好。因此,本文提出的面向菜谱领域的跨模态检索方法研究具有重要的研究意义及应用价值。主要研究工作如下:
(1)基于注意力网络进行图像与文本交互的菜谱检索,我们分别提出平行注意力神经网络和交叉注意力网络研究了跨模态菜谱检索问题。具体来说,平行注意力神经网络通过使用菜谱的上下文信息来单独学习图像和文本中各个部分的注意力权重来更好的学习图像和文本的表示,然后映射到公共空间进行相互检索;交叉注意力神经网络使用菜谱的图像引导文本的注意力并且用文本引导图像的注意力,分别得到菜谱的图像和文本的表示后再映射到公共空间进行检索。这两个方法很好的利用了菜谱的图像和文本之间的交互信息,可以大大提高检索的准确性。
(2)基于融合网络进行图像与文本交互的菜谱检索,受(1)中利用菜谱图像和文本交互信息的注意力网络的对检索准确率提高的有效性的启发,我们提出一个融合网络整合以上两种方法得到菜谱图像和文本的表示,得到更加准确的表示特征。通过实验证明,菜谱图像和文本检索准确率在以上两种方法上有了明显的提高。
最后通过在两个数据集进行实验,我们在整体性能比较和微观分析的范围内证明了我们提出的解决方案的有效性和合理性。
其他文献
时序预测是深度学习应用领域研究中的热点问题。捕捉时序数据间复杂的关联特性是实现精准预测的关键。目前研究未能针对性给出以下问题的解决方法。具体的,如何处理数据集上多个非预测时间序列在不同时间阶段对目标序列产生的不同程度的影响;时序数据中蕴含的突变现象会显著的影响标签序列的变化规律,如何通过预测方法学习到历史数据中的这些信息。在先前多数研究中,通常仅从神经网络模型角度设计预测方法,而目标函数和优化算法中完全忽略了随时间变化的信息。
本文从时序预测的目标函数、神经网络模型和帮助模型在迭代训练中收敛的优
近年来,深度神经网络在解决各种机器学习问题和应用方面取得了重大进展。然而,这一显著进步得益于大规模下可用的带标签数据。通过手工标记足够的训练数据用于特定应用任务上通常是不可取的,在缺乏标记数据这一问题上,亟需设计出通用的算法以减少在人工标记上的消耗。领域自适应方法能够应用机器学习方法针对一个分布中采样的数据进行训练,并将其应用于另一个分支中采样的数据,其核心是适应不同域的数据分布变化。但是,在实际应用场景中,一方面,通常很难做到源域与目标域的标签空间是一致的,另一方面,存在着因源域对应空间下的数据量稀少而
[摘 要]目前,以xM00C为主的高等教育慕课数量不断增长、应用规模不断扩大。文章针对慕课教学设计中存在的教学阶段划分与衔接不够明确、课程资源缺乏系统梳理、学习情境相对单一等问题,提出基于首要教学原理进行慕课教学单元、教学阶段和学习情境的设计,并以学银在线供应链管理课程为例进行了具体说明。 [关键词]慕课;教学设计;首要教学原理;供应链管理 [中图分类号]G434 [文献标识码]A
随着网络和移动设备的发展,越来越多的应用技术需要更高的网络带宽和稳定的服务质量。多宿主技术使移动设备能够配备多个网络接口,设备可以同时连接多个不同网络。设备使用多路径传输控制协议(Multi-Path TCP,MPTCP)可以聚合LTE网络和WLAN网络,充分使用移动设备的多个网络,提高数据传输率,保证数据传输的鲁棒性。
但是在基于端到端网络模型中,客户端和服务器之间的无线链路网络状态通常不可预测。许多原因导致网络条件不稳定,主要表现为包丢失、带宽抖动和高延迟变化等,最终导致在多路径传输中数据包
随着互联网的发展,网络上产生了大量的文本数据,而如何快速地对这些文本进行分类是一个亟待解决的问题。传统的机器学习算法在文本特征提取上能力有限。近年来,随着深度学习算法的快速发展,文本语义信息的提取更加精确、完善,从而为文本分类性能的提升奠定了坚实的基础。目前,处理多标签文本分类比较常用的是SequencetoSequence模型,即利用编码器抽取文本特征,再利用解码器顺序输出文本的多个类别。与其它深度神经网络模型相比,Seq2Seq模型自带的注意力机制能够很好地突出文本中的关键信息,从而提升了模型的分类效
目标检测是计算机视觉领域最经典的任务之一,近年来基于深度神经网络的目标检测算法的研究取得了显著的突破。然而,深度学习目标检测算法需要对大量有标注数据的训练以获得更高的性能,而实际应用中有标注资源往往是稀缺的,大量的无标注数据需要人工对其进行标注。然而,人工标注通常是一个非常耗时、困难且成本高的过程。主动学习通过衡量和评估未标注样本所含有的信息量,挑选信息量最丰富即对模型训练最有利的样本进行人工标注,以实现仅对少量样本标注训练即可达到较高的模型性能,从而大幅提升人工标注效率,减少人工成本。本文的研究将针对在
随着互联网的快速发展,人们在网上活动越来越多,产生的数据量也在飞速地增长。海量的数据带来了严重的数据存储和处理问题。为了解决海量数据的计算和存储问题,云计算和云存储应运而生。为了获得巨大的存储空间和高性能的计算,越来越多企业和个人将自己的数据被外包到云端管理系统中。可是数据外包提供低成本存储和高效率计算的同时也带来了隐私泄露的问题。大量的数据暴露在云服务器端。恶意的管理者可以轻易地窥探数据所有者的隐私,从而损害数据所有者的利益。如果将数据完全加密再存储到云服务器,虽然可以避免隐私的泄露,但云服务器无法直接
随着智能辅助驾驶及自动驾驶系统的发展,复杂道路场景下基于视觉的车道线检测已成为热点研究课题。现有的车道线检测算法分为两大类,一类是基于传统图像处理的算法,另一类是基于深度神经网络的算法。第二类算法的准确性比第一类算法更高,但是也存在两个问题。(1)在复杂道路场景下,准确性会下降,主要原因是:深度神经网络的实际感受野远小于理论感受野;神经网络在推断时容易被无关的信息干扰。(2)深度神经网络算法在运行
随着互联网技术和产业的不断发展,如何保障网络接入设备的安全已经成为一个重要的议题。入侵检测系统可以很好地区分网络连接中的正常和异常行为,是保障网络安全的一个重要手段。然而现在的网络入侵方式往往使用多种机制来伪装攻击并逃避检测,这对入侵检测系统提出了新的挑战。虽然有许多来自机器学习和模式识别领域的监督和无监督学习算法已经被用于提高入侵检测系统的效率,但是它们还是存在一些问题。无监督学习的算法不需要大
图像补全是计算机视觉中的一个重要研究方向,具有广阔的应用前景。深度学习图像补全方法一般有基于自编码器、生成对抗网络和循环网络这三种基础技术的方法,然而大部分方法的输出结果都非常单一,对每一张缺损图像输入都只能生成一个补全结果。由于每一张缺损图像的可能结果所对应的概率空间非常大,为了获得补全结果的多样性,本文提出一种基于标签差异化的图像补全方法,称为LD-PICNet(Label Different