具有语义一致性的跨模态关联学习与信息检索

被引量 : 7次 | 上传用户:seankkk2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的持续普及,多媒体数据呈现爆炸式的增长,多媒体信息检索的需求也随之日益增大。一方面,网络多媒体数据量大,语义类别多,内容复杂多样;另一方面,多媒体数据由于文本、图像、视频等信息表达方式处于异构的特征空间上,他们之间的关联关系复杂多样,这就给多媒体数据分析和检索等相关研究提出了挑战。传统的基于文本检索的方式受制于多媒体信息是否存在文本描述及其描述的准确性。基于标注的图像检索通常使用视觉分类器建立语义类别和图像之间的关系,然而语义鸿沟往往影响分类器的性能,其次,大量不同的语义类别之间存在复杂的关系,这也给基于标注的检索方法造成了困难。近几年来,有研究者通过学习异质媒体数据之间的关联,直接解决不同媒体信息之间的相互检索问题。然而,现有的方法没有很好的应对海量多媒体数据中存在的复杂语义和复杂内容,也就不能很好的解决异质媒体造成的空间异构问题。本文围绕语义一致性的跨模态关联学习,从以下几个方面对检索问题进行深入研究。本文的第一个贡献点是具有语义指导的视觉显著性研究和提取方法。在多媒体信息中,图像信息相对文本信息来说在表达高层语义时有更多的冗余,而选择性注意是人类视觉系统提取信息的有效手段,现有的研究工作主要集中在样例图像和简单目标对于视觉显著性的影响,而忽略了复杂语义的作用。在本研究中,我们收集语义指导下的眼动注视点数据,通过对注视点详细的分析,我们得出记忆在语义指导的视觉注意分配中的作用,并提出一个通过学习语义指导下的眼动模式的显著区域检测模型,该模型通过概率的形式结合了自底向上和记忆引导的自上向下的显著性。显著区域和眼动注视点的比较证明了我们提出的模型是一个具有语义的视频显著性信息提取方法。本文的第二个贡献点是具有语义一致性的跨模态关联学习方法。借鉴单模态数据降维和度量学习的思路,解决跨模态检索最直接的方法就是将跨模态的数据投影到一个低维可比较的空间中。然而多媒体数据之间复杂的语义关联经常被现有的关联学习研究工作简单化为一一对应的关系和单模态内的边信息。现有的关联学习通常采取的全局关联策略也不能很好的建模大量多媒体内容造成的复杂数据分布。在本研究中,我们首先建模类别层次的跨模态关联,提出基于最大边界的跨模态度量学习方法。通过优化一个正则化的损失函数,使得跨模态数据之间的距离和他们的类别语义距离一致。其次,跨模态数据之间的复杂语义可以用更为细致的层次化语义描述,我们研究语义一致性的检索问题,即被检索的异质媒体数据应该根据和查询样本的层次化语义相关性进行排序。通过联合多媒体内容相似度和本体相似度,本研究建立了一个针对多媒体数据的自适应语义树结构。为了应对多媒体数据的多层语义关联和内容多样性,我们提出跨模态的局部关联学习方法,通过概率成员函数加权的方式将局部投影函数聚合起来。本研究提出了两种加权的方式,即局部投影聚合和局部距离聚合。我们定义了一个包含语义一致性,局部投影一致性和局部投影复杂度的损失函数,以跨模态样本的距离和他们在语义树结构上的距离一致为约束条件,联合优化得到局部投影和概率成员函数的参数。所提方法在NUS-WIDE和ICML-Challenge两个大数据量的跨模态数据集上超越了现有的关联学习方法,表明了我们对于多层语义关联和内容多样性的建模是行之有效的。本文的第三个贡献点是具有语义一致性的跨模态视觉特征学习。现有的关联学习方法都是基于人工设计的视觉特征,缺少从复杂的视觉信息中提取有意义的跨模态关联的能力。近几年来深度网络在特征学习上表现出了优秀的性能,吸引了大量研究者的关注。本研究提出一个联合视觉特征学习和跨模态关联的新的深度网络结构,在特征学习部分和传统的卷积神经网络(Convolutional Neural Network,CNN)一样,采用堆砌的卷积层、非线性层、池化层和全连接层,在特征学习的上层增加一个关联层,约束提取的视觉特征和文本信息具有一致的语义。视觉特征提取和跨模态关联的参数使用随机梯度下降方法联合求得。在数据集NUS-WIDE上,所提模型的性能超越了现有的关联学习方法使用串联的6个人工设计的图像特征的性能。本文的第四个贡献点是具有语义一致性的跨模态检索框架。为了处理海量真实的图像和文本数据之间的相关特性,我们比较并综合了三种各具优势的典型方法,基于支持向量机(Support Vector Machine,SVM),基于典型关联分析 (Canonical Correlation Analysis,CCA),消极攻击的图像检索模型(Passive-Aggresive Model for Image Retrieval,PAMIR)。基于SVM的方法通过训练查询文本自适应的SVM模型,衡量查询文本和图像之间的相关性;基于CCA的方法通过最大化图像和文本之间的关联,学习一对线性投影函数;而PAMIR将图像特征投影到文本空间中,通过优化一个排序相关的损失函数来解决检索任务。本研究利用这三种不同方法的优势提出一个输出融合的检索框架,使用CNN提取的概念级别的视觉特征,在微软组织的图像检索挑战赛中实现了良好的性能。
其他文献
<正>从报纸到广电,曾经意义上的传统媒体或急或缓、或主动或被动地步入了转型的轨道。无论是观念转变、框架设计,还是组织创新、模式再造,都意味着转型将是一项复杂的工程。
作为宁夏回族自治区首批农村税费改革试点县,彭阳县的农村税费改革在切实减轻农民负担、维护社会稳定方面取得了阶段性成果,但也存在一些问题,应及时调整改革思路,不断完善改
近年来我国农村税费改革取得了一定的成效,但还有许多不够完善的地方,农民负担反弹的隐患依然存在,税改政策落实不到位,部门乱收费、变相收费等问题依然存在.要解决这一问题,
采用经典的Von Bertalanffy生长方程和数理统计的方法,于2001-2002年在中俄界湖兴凯湖采集翘嘴鲌,对其生长特性进行了研究.结果表明,翘嘴鲌体长和体重的关系为W=0.0077L3.1(r
本文在讨论生长 (S)曲线法主要数学模型的基础上 ,建立了生长曲线模型的一般形式 ,它为建立新的生长线模型提供线索。作为例子 ,文中给出了一个新的生长曲线模型。此外 ,给出
背景青少年饮酒已成为全球重要的公共卫生问题之一。对青少年饮酒行为进行调查,并采取相应防控措施,不仅有助于促进青少年身体发育,减少饮酒引起的各类损伤,还可以降低成年后
目的:胃癌是消化系最常见的恶性肿瘤之一,肿瘤转移与复发是其主要死亡原因。赖氨酰氧化酶2(lysyl oxidase-like 2 protein,LOXL2)是赖氨酸氧化酶(LOX)家族的成员之一,在肿瘤
PACTE翻译能力模型是目前学术界公认"最为系统的一个可视化模型"。笔者以PACTE翻译能力习得和过程理论为依据讨论《商务英语翻译》一书中的误译问题,揭示各种商务误译的根源在
2003年起,苏州工业园区开始提出了“一校一品”的发展思路。所谓“一校一品”,即每个学校根据自身的特点与优势,重点选择、发展一项体育训练项目,兼顾其他体育项目,通过园区