论文部分内容阅读
随着万维网(World Wide Web)上越来越多的多媒体数据的出现,从它们中挖掘信息在互联网应用技术中显得越来越重要。注意到互联网上目前已经存在着大量带标注的文本信息,考虑到文本知识的表示与挖掘相比多媒体数据更为容易,人们希望通过考察媒体数据与文本数据之间的相互影响与相互依存关系,借用后者来帮助机器更好地理解前者。这使得最大化利用文本信息来帮助进行多媒体信息抽取成为多媒体数据挖掘领域的一个新颖而关键的课题。本论文以图像分类(image classification)任务为对象,希望通过它开启媒体-文本数据交叉挖掘的门路。我们使用一种被称为“文本协助下的图像分类器”(text-aided image classifier,TAIC)的技术,尝试解决带标注的训练图片样例数量极少情况下的图像分类问题。这个问题本身也有着重要的现实背景,因为当今的互联网上带标注的图片数量远少于带标注的文档数量。我们解决这一问题的方案基于图像与文本的可重词集(bag-of-words)表示以及Naive Bayes(NB)分类模型(Naive Bayes classification model, NBM),方案的重点是借助互联网上丰富的带标注文本信息以及图像-文本共同出现(image-text co-occurrence,以下简作共生)数据预测给定目标概念下图像特征的分布规律(image feature distribution)。具体方法上,我们扩展了传统的朴素贝叶斯算法,首先通过传统方法以及互联网上充足的带标注文本信息找到给定目标概念下文本特征空间上最具代表性(most discriminative)的特征,再通过一个我们称之为特征映射(feature mapping)的过程将上述文本特征映射到图像特征空间上,后者的数据基础就是互联网上丰富的图像-文本共生信息。这些共生数据在特征映射过程的帮助下搭建起了一座沟通文本知识与图像知识的桥梁。整个算法的实质是用一个基于充足的文本训练数据得到的文本特征分布来估计图像空间上的目标特征分布。通过在真实世界的图片数据集上进行的实验,我们验证了我们通过特征映射得到的图像特征分布非常接近在充分多的训练图像数据之下训练得到的图像特征分布。在训练图片非常小的情况下,我们的模型通过辅助的文本信息的帮助大大提升了分类性能。最后,我们的混合模型(既接受图片训练数据也接受文本、共生训练数据)在带标注训练图片数量不同的不同实验中均取得了优于传统图像分类模型的效果,这证明我们的方法确实整合了图像知识与文本知识,提升了图像分类性能,同时方法本身又非常直观与高效。