论文部分内容阅读
随着计算机网络技术、多媒体技术以及数字传输技术的不断发展,在网络、广电、出版等领域使用数字技术产生、传输和保存了大量的图像、视频、音频、文本等不同类型的跨媒体数据,标志着媒体大数据时代的到来。用户面临着“信息多但用不了,有信息但找不到”的重要问题,如何实现跨媒体检索成为了研究和应用的关键问题。目前常用的检索方式是单媒体检索,如以文搜文、以图搜图等。但多媒体内容形式多样,一般包括文本、图像、视频、音频等。基于内容的跨媒体检索是指用户任意给定一种或几种媒体查询,系统自动检索出与查询主题相关的所有媒体内容,包括相关的文本、图像、视频、音频等。对比单媒体检索,跨媒体检索能够提供不同媒体的交叉检索结果,能够更好满足用户的需要,是下一代多媒体搜索引擎的关键技术。 然而由于跨媒体检索涉及到不同的媒体内容,这些不同媒体内容的底层特征意义不同且不可直接度量,这带来的一个难题是如何基于内容来度量不同媒体的相似性。针对以上难题,本文研究了跨媒体统一表示、跨媒体相似性计算和跨媒体检索重排序这三个重要问题,跨媒体统一表示是跨媒体检索的重要基础,跨媒体相似性计算能够充分发挥跨媒体统一表示的作用,跨媒体检索重排序能够在上述基础上进一步提高检索准确率,三方面的研究相互促进增强,从而有机统一在基于内容的跨媒体检索上。本文的工作主要包括下列三个方面: (1)提出了一种基于统一表示学习的跨媒体特征表示方法:针对跨媒体检索中如何统一表示不同媒体类型的难题,提出了基于稀疏和半监督规约的统一表示学习方法,能够有效映射不同媒体内容到统一的特征表示空间上,以支持基于内容的跨媒体检索。该方法一方面能够共同学习出不同媒体类型的稀疏特征映射矩阵,稀疏特征表示能够有效地过滤特征表示中的噪声,另一方面本文也共同考虑了不同媒体类型的未标注数据,进一步提高了跨媒体训练样本的多样性及模型准确性。该方法的有效性在包含五种媒体(文本、图像、视频、音频、3D)的跨媒体数据集上得到了验证。特别地,本文也是跨媒体检索首个同时支持五种媒体类型检索的工作。该部分内容在第3章介绍。 (2)提出了一种基于度量学习的跨媒体相似性计算方法:针对现有度量学习算法只能支持单一媒体类型,无法计算不同媒体的内容相似性难题,提出了基于联合图规约的跨媒体度量学习方法,通过将不同媒体的结构信息统一建模为联合图规约,同时考虑不同媒体内容进行求解,使得不同媒体之间能够互补且相互促进,最终获得更加准确的跨媒体相似性。实验结果一方面表明了跨媒体度量学习的有效性,另一方面也表明了该方法与统一特征表示能够互相促进,充分发挥统一特征表示的作用。该部分内容在第4章介绍。 (3)提出了一种跨媒体检索重排序方法:针对基于匹配的跨媒体检索方法难以充分挖掘用户意图的难题,提出了基于约束传递的跨媒体检索重排序方法,这样能够充分考虑用户查询以及未标注的数据分布信息来提高检索准确率。现有的跨媒体检索方法一般只能考虑跨媒体数据之间正相关信息,而跨媒体约束传递算法能够对正相关信息和负相关信息统一建模,根据负相关信息能够很容易过滤大量噪声。本文基于度量学习的结果构建初始图模型,通过迭代优化进行重排序。本文将该问题分解为一系列半监督学习问题,并且给出了模型的解析解,从而能够有效进行跨媒体检索重排序。实验表明,跨媒体检索重排序方法能够进一步提高跨媒体检索的结果。该部分内容在第5章介绍。