基于统一表示和度量学习的跨媒体检索技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：lbtx368

【摘要】

：

随着计算机网络技术、多媒体技术以及数字传输技术的不断发展，在网络、广电、出版等领域使用数字技术产生、传输和保存了大量的图像、视频、音频、文本等不同类型的跨媒体数据

【作者】

：

翟晓华

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2014年期

【关键词】

：

跨媒体检索统一表示度量学习约束传递

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机网络技术、多媒体技术以及数字传输技术的不断发展，在网络、广电、出版等领域使用数字技术产生、传输和保存了大量的图像、视频、音频、文本等不同类型的跨媒体数据，标志着媒体大数据时代的到来。用户面临着“信息多但用不了，有信息但找不到”的重要问题，如何实现跨媒体检索成为了研究和应用的关键问题。目前常用的检索方式是单媒体检索，如以文搜文、以图搜图等。但多媒体内容形式多样，一般包括文本、图像、视频、音频等。基于内容的跨媒体检索是指用户任意给定一种或几种媒体查询，系统自动检索出与查询主题相关的所有媒体内容，包括相关的文本、图像、视频、音频等。对比单媒体检索，跨媒体检索能够提供不同媒体的交叉检索结果，能够更好满足用户的需要，是下一代多媒体搜索引擎的关键技术。　　然而由于跨媒体检索涉及到不同的媒体内容，这些不同媒体内容的底层特征意义不同且不可直接度量，这带来的一个难题是如何基于内容来度量不同媒体的相似性。针对以上难题，本文研究了跨媒体统一表示、跨媒体相似性计算和跨媒体检索重排序这三个重要问题，跨媒体统一表示是跨媒体检索的重要基础，跨媒体相似性计算能够充分发挥跨媒体统一表示的作用，跨媒体检索重排序能够在上述基础上进一步提高检索准确率，三方面的研究相互促进增强，从而有机统一在基于内容的跨媒体检索上。本文的工作主要包括下列三个方面:　　(1)提出了一种基于统一表示学习的跨媒体特征表示方法:针对跨媒体检索中如何统一表示不同媒体类型的难题，提出了基于稀疏和半监督规约的统一表示学习方法，能够有效映射不同媒体内容到统一的特征表示空间上，以支持基于内容的跨媒体检索。该方法一方面能够共同学习出不同媒体类型的稀疏特征映射矩阵，稀疏特征表示能够有效地过滤特征表示中的噪声，另一方面本文也共同考虑了不同媒体类型的未标注数据，进一步提高了跨媒体训练样本的多样性及模型准确性。该方法的有效性在包含五种媒体（文本、图像、视频、音频、3D）的跨媒体数据集上得到了验证。特别地，本文也是跨媒体检索首个同时支持五种媒体类型检索的工作。该部分内容在第3章介绍。　　(2)提出了一种基于度量学习的跨媒体相似性计算方法:针对现有度量学习算法只能支持单一媒体类型，无法计算不同媒体的内容相似性难题，提出了基于联合图规约的跨媒体度量学习方法，通过将不同媒体的结构信息统一建模为联合图规约，同时考虑不同媒体内容进行求解，使得不同媒体之间能够互补且相互促进，最终获得更加准确的跨媒体相似性。实验结果一方面表明了跨媒体度量学习的有效性，另一方面也表明了该方法与统一特征表示能够互相促进，充分发挥统一特征表示的作用。该部分内容在第4章介绍。　　(3)提出了一种跨媒体检索重排序方法:针对基于匹配的跨媒体检索方法难以充分挖掘用户意图的难题，提出了基于约束传递的跨媒体检索重排序方法，这样能够充分考虑用户查询以及未标注的数据分布信息来提高检索准确率。现有的跨媒体检索方法一般只能考虑跨媒体数据之间正相关信息，而跨媒体约束传递算法能够对正相关信息和负相关信息统一建模，根据负相关信息能够很容易过滤大量噪声。本文基于度量学习的结果构建初始图模型，通过迭代优化进行重排序。本文将该问题分解为一系列半监督学习问题，并且给出了模型的解析解，从而能够有效进行跨媒体检索重排序。实验表明，跨媒体检索重排序方法能够进一步提高跨媒体检索的结果。该部分内容在第5章介绍。

其他文献

B/S结构多层分布式高速公路收费系统

该课题采用B/S多层软件的结构,实现高速公路收费系统的各子功能,通过WEB系统来实现收费系统的网络管理.该论文的第一章介绍了课题的背景及B/S软件结构的基本概念,以及多层软

学位

B/S多层结构收费系统高速公路

一种基于MapReduce的PLSA隐变量模型训练系统设计与实现

近年来，随着互联网的发展，移动互联网、物联网的普及，可探测和采集的数据急剧增加。随着数据量的增加，人们开始认识到蕴含在数据中巨大的财富，并开始以各种形式挖掘、开采，数据渗透

学位

网络服务数据挖掘编程框架程序语言

MPEG-2中ME部件的设计与功能验证

该文对ME部件的设计分为四部分:图像组控制器、运算部件、控制部件和后处理部件.该文采用一种封闭的图像组格式,由图像组控制器实现对其控制.采用脉动阵列做为运算单元,在课

学位

MPEG-2运动估计局部存储器指令集视频编码MPEG-2标准脉动阵列

基于XML/Web服务的电子商务应用研究与实现

本文首先分析了传统分布式计算技术CORBA、DCOM和RMI的特点，揭示了其固有的不足及缺陷：都不太适合于在Internet这样松散耦合、异构的、有防火墙的网络环境下进行电子商务应用系

学位

电子商务XMLWeb服务SOAP分布式计算数据集成

构件化嵌入式TCP/IP协议栈JBEIP的设计和实现

该文所做的工作是国家863科研项目—构件化嵌入式操作系统及其开发环境研制的一部分.目标是设计并实现一个构件化、嵌入式的TCP/IP协议栈JBEIP.该文的重点是如何使协议栈满足

学位

嵌入式操作系统TCP/IP协议构件描述语言JBEIP

Web网页信息中特定内容的识别技术研究

该文的工作主要集中在对包含有特殊信息内容的文本,进行的有害度评测上.参考以往文本过滤系统所采用的技术,我们发现在这个特定领域,特殊应用上,它们有明显的不足之处.该文根

学位

信息识别语料学习词性转移表读音匹配机器学习

汉语视位建模及可视语音的研究

随着多媒体技术的发展，对各种媒体之间交互作用的研究越来越受到人们的关注。可视语音研究是这个领域的一个重要研究方向，在智能化人机交互界面等研究中占有重要地位。本文结合

学位

人脸动画动画参数视位模型可视语音语音合成音视频视位建模

VLSI三维寄生电容电阻快速直接边界元提取算法研究

目前，集成电路工业作为信息产业的基础，对国民经济和和社会发展产生着日益重要的影响。随着超大规模集成(VLSI)技术和深亚微米工艺的发展，集成电路中广泛存在宽度仅为深亚微米量

学位

超大规模集成电路三维电容电阻提取直接边界元法虚拟多介质快速计算

基于指令集并行的倒排索引压缩算法的研究

在大数据时代，海量数据使得压缩技术变得越来越重要。同样地，对于搜索引擎来讲，高效的压缩算法将会提升倒排索引的查询性能和空间利用率。近十年来，计算机处理器得到了快速发展，提

学位

单指令多数据流倒排索引整数编码信息检索搜索引擎查询性能

架构在网络处理器上硬件防火墙技术的研究与实现

该文研究内容包括硬件防火墙技术、网络处理器技术以及如何将二者有效结合起来这三个方面的问题.该文在IBM网络处理器平台上开发了一个硬件防火墙的原型系统,同时对系统瓶颈

学位

网络处理器硬件防火墙状态检测并行处理性能评价

基于统一表示和度量学习的跨媒体检索技术研究

与本文相关的学术论文