多模态数据的跨媒体语义对齐关键方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:mgghz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网中海量多模态数据不断涌现。如何对这些海量数据进行分析、理解和利用,挖掘其中包含的具有巨大价值的信息,是一个重要的研究课题。  多模态数据往往由来自不同媒体的数据(如文本和图像等)耦合构成来表达共同语义。在共同语义表达过程中,不同模态数据相互协同而呈现复杂的语义对齐关系,如一幅图像与其对应描述文本之间存在全局语义的对齐,一幅图像中的视觉对象与其所对应一段文本中单词存在局部语义对齐。  发掘多模态数据中不同模态信息之间的语义对齐对多模态数据的分析与理解具有重要意义,在跨媒体数据检索、分类、描述生成、问答等领域中会起到巨大的作用。  本文的主要研究工作是:在学习多模态数据的跨媒体表示基础上,挖掘和发现多模态数据之间所蕴含丰富语义的对齐关系。为此,针对多模态数据之间所存在的语义对齐关系,本文从多模态语义的全局对齐、局部对齐-全局对齐和多层次对齐三个方面提出了若干模型和算法。  首先,本文提出了一种跨媒体隐式联合表达方法,用于挖掘图像-文本之间的全局语义对齐关系。在这一方法中,给定图像及其描述文字语句,本文引入条件随机场来挖掘图像-文本中共享的隐式主题,并将多模态数据之间的全局对齐关系建模为其在各个语义主题上的相关程度。本文将基于跨媒体隐式联合表达的全局对齐方法应用到跨媒体分类和排序两大任务当中。在分类任务上提出了建模跨媒体数据及其类别标签间全局语义对齐的多模态隐变量条件随机场模型。在排序问题上,提出在最大间隔排序学习框架下训练基于全局语义对齐的跨媒体排序函数。实验验证了这一方法相比其它方法更强的判别性,以及在跨媒体分类和排序任务上的有效性。  其次,为了在全局对齐的基础上进一步挖掘多模态数据之间的局部对齐关系(如图像中视觉对象与其对应文本描述中单词之间的对齐关系),本文提出了一种局部-全局协同对齐模型。这一模型使用深度神经网络将一幅图像中视觉对象与其描述文本中单词映射到局部语义空间中,挖掘局部对齐关系;通过将图像和文本分别表示为视觉对象和单词的组合语义嵌入,构建两者的全局共享空间,从而挖掘全局语义对齐关系。本文将提出的局部-全局协同语义对齐模型运用在图像-文本排序当中,基于最大间隔排序学习框架训练了综合考虑局部和全局语义对齐的跨媒体排序模型,取得了很好的效果。  最后,面对长视频等多模态数据中存在的多层复杂语义,本文提出了一种用于视频事件定位的基于层次化搜索策略的语义对齐方法。在视频事件定位问题中,为了精确地学习视频时序区域和事件标签之间的语义对齐关系,传统方法需要暴力式穷举不同时长的视频区域,并计算所有潜在区域与事件标签之间的对齐概率。为了克服穷举式搜索这一不足,本文采用强化学习来训练一种从全局对齐到局部对齐逐层细化的多层优化搜索策略。相比传统方法需要遍历所有尺度的视频区域,我们的方法在每一层搜索中能够自适应地基于已经观察的视频片段选择少数几个视频区域进行下一层搜索,有效地提升了搜索跨媒体数据对齐的计算效率。实验表明,本文提出的算法能够在遍历更少备选窗口的情况下,以更高的准确率和召回率定位显著性区域。
其他文献
布尔代数是信息科学中的重要数学工具,内容丰富,应用广泛。 本文编写整理了布尔代数理论中较为实用的部分,主要包括布尔代数结构、布尔函数、布尔方程、布尔矩阵等方面的基础
网络安全始终是计算机科学技术领域引人注目的重大研究课题。防火墙作为互联网络安全必需的基础设备,其技术在过去近十年里经历了不断的完善和更新。在对防火墙一直追求的安全
分布式应用系统具有网络化和异构性的特点,是网络一体化和并行处理分布化的产物。中间件是分布式系统上构筑三层C/S基础应用框架的一种构件技术,是处在操作系统、网络层和应用层
昆虫脑部神经元数量远小于哺乳类动物,但昆虫所表现出的部分行为却与哺乳类动物相媲美。昆虫脑部研究工作为复杂脑结构及机制的理解打下了基础,但现有生理研究手段尚未完全明晰
该文主要包括以下几个方面内容:1、iSCSI协议:IP-SAN的效率由多个因素共同决定,包括存储节点的I/O效率、网络传输效率、文件系统效率等等.但iSCSI协议作为IP-SAN的传输协议,
基于图像绘制虚拟现实技术利用摄像机拍摄的真实图像,经过图像处理把一系列图像合成全景图,再重新构成新的视图.这种方法不需要建模,场景逼真度高,场景的处理与场景的复杂度
互联网和IP技术的高速发展,电话服务的分组化已成为电信网络演进的主流方向,VoIP技术正在经历前所未有的迅速发展。各种VoIP产品大量推向市场,改变着人们的生活方式;同时,VoIP的协
该文首先对智能网的概念及移动智能网中的数据库应用进行了介绍.并以北京邮电大学程控交换与通信网国家重点实验室和东信北邮信息技术有限公司自主开发的CMIN02商用移动智能
随着当今商业活动的开放性和丰富性的增强,特别是我国企业正处在成长期,开发、部署、管理和维护企事业应用系统的客观复杂性正在加大。因此,缩短复杂应用系统的开发周期,降低开发
语音对话是人们相互通讯和交流最方便快捷的手段。但是人们在语音通讯过程中不可避免的会受到来自周围环境、传输介质的干扰,引入了噪音,影响了我们的听辨。在过去,我们一般使用