论文部分内容阅读
互联网的普及和多媒体技术的飞速发展,造就了以图像为代表的多媒体信息呈现爆炸式的增长。海量的数据带来了存储、检索、管理等多方面的挑战。现行主要搜索引擎均是基于把图像数据的文本描述,缺乏准确性,不仅如此,在大规模网络图像的背景下,大量多媒体数据缺乏文本描述。因此如何自动对海量图像数据进行有效的组织和管理,以及如何对于每幅图像产生有效的结构化描述信息就成为了亟待解决的问题。在本文中,我们研究大规模图像检索和理解中的两个重要任务:图像自动标注和图像语义分割;深入理解其中存在的问题并提出了全新的解决方案。图像自动标注方法使用人工标注的图像对计算机进行训练,主要目的是使得计算机能够自动对没有标注的图像添加语义标签,列出其中存在的语义类别。传统的基于内容的图像检索系统需要实时根据图像内容提取的特征来计算两幅图像的相似程度,相比而言,仅基于文本的语义标签检索复杂度则低得多。网络图像的激增极大地丰富了人工标注图像的数量,因此自动图像标注的研究对于当前环境下大规模图像检索和理解有着非常重要的应用意义。然而自动图像标注模型主要基于图像层面的特征和标签,其局限性在于无法提供每个标签的位置,造成了不准确的结果。近年来,以获得每个区域乃至于像素的语义类别为目标的语义分割引起了全新的研究热潮。为了更全面地学习图像及其区域中的语义,本文提出了一个基于多图学习和块对角化约束的全监督语义分割方法。由于每种特征均从一个或者多个角度对图像进行描述,很难确定对于每个语义类别时,哪种特征是更为有效的。本文提出的全监督语义分割方法首先通过块对角化约束各个特征关系矩阵,随后建立各个特征下超像素之间的相似度和其语义相似度的一致性,进而学习超像素之间的多角度相似度。我们将上述过程定义为凸优化问题并提出了高效的解决方案。最终的超像素标签预测通过学习得到的多角度相似度关系图确定。传统方法依赖于对每一个像素精确标注的图像来进行模型的训练,资源十分有限。相比之下,如果尝试只利用图像层面的标签来训练语义分割模型,则监督信息大大弱化,这类问题被称为弱监督的语义分割问题。拥有充分的有标签图像作为资源的同时,该类问题的困难也是十分明显的:没有准确的区域语义信息,使用图像的标签很难训练区域的分类器。不同于已有的弱监督语义分割方法尝试用不准确的信息训练分类器,我们提出了一种全新的基于高维特征子空间分布的分类器评估方法来解决该问题。对于每个语义类别,我们随机采样产生若干个候选分类器,并利用稀疏重构的方法获得每个分类器对应子空间的基。利用该组基重构该类别的正负样本,将二者之间的差异作为评估准则,最终选出较优的分类器对测试集合进行分类。为了提升方法的效率,避免随机采样在高维空间产生的高昂代价,我们还提出了一个基于高斯混合模型的迭代合并更新算法来拟合参数及其对应得分的条件分布以确定最优分类器的可能区域。本文提出的全监督与弱监督语义分割方法分别在当前研究领域的主流数据集上进行了运行和测试,均取得了较好的效果。尤其值得一提的是,即使在弱监督环境下,本文所提出的方法的分类精度依然超过了一些全监督的方法。