论文部分内容阅读
赋予计算机以人类视觉能力的长期梦想,加上近年来图像数据爆炸式增长带来的图像管理、检索等相关应用的迫切需求,使得图像内容分析成为了视觉研究的热门课题。图像特征是进行图像内容分析的基础,本质上图像特征是对图像中某些结构表观特性的总结,如颜色直方图是对像素颜色特征的总结,词袋模型是对图像块局部纹理特征的总结。然而图像中结构的总数极其庞大,如何从中选择一个有效子集提取图像特征是图像内容分析研究的重点。现阶段的图像特征主要基于图像中的浅层结构(像素、角点、斑点等)进行提取,浅层结构变化范围有限,一般可以利用人工制定规则的方法进行检测,但与语义信息关联较弱,这也造成了基于浅层结构的图像特征和高层语义概念之间的语义鸿沟问题。相对于浅层结构的深层结构一般是带有较强语义的局部图像区域(如人脸、车轮、马腿等),便于在语义层面进行图像内容分析。但深层结构存在着复杂的内在变化,一般无法通过人工制定规则的方法进行检测,往往需要借助于大量精细标注的训练数据学习深层结构模型进行检测,而直接通过人工标注这类数据极其耗时耗力,限制了其在实际中的应用。本文针对在少量监督信息情况下学习深层结构模型的问题提出了一些初步的解决方法,并基于提取的深层结构进行图像内容分析,在相关具体应用中验证了其有效性。本文的主要工作归纳如下:1.利用某些类别之间存在着相似深层结构的事实,提出了一种增量式深层结构模型学习算法。在学习新类别的深层结构模型时,借助于一些已有类别的深层结构模型作为辅助信息,在少量训练样本情况下学得该类别的深层结构模型。2.基于社交网站上用户提供的带标签的图像集,提出了一种惰性多示例学习算法进行深层结构提取。该算法将图像的标签传递到深层结构,并根据每个标签所对应深层结构的视觉属性来详细化该标签的描述,从而生成图像更详细的描述。3.提出了一种语义特征点检测器直接检测图像中语义表征力强的图像块,语义特征点检测器本质上是对图像块按语义强弱进行划分的分类器。为了解决直接按语义强弱标注大量图像块的困难,提出了一种基于弱监督信息的学习算法获取大量类别的强语义图像块,并根据这些强语义图像块对图像块空间中语义区域进行划分产生语义特征点检测器。4.提出了一种基于多层学习获取部位模型的算法,第一层用基于图像块的图像表示用仅有图像层标注训练数据的学习图像分类器,用图像分类器自动对图像进行详细标注生成与类别相关区域,作为第二层学习的训练样本。第二层通过密集匹配定义的相似性度量和聚类算法无监督地定义部位及它们的正例样本,并学习各部位的初始模型启动隐变量支持向量机进行进一步的模型优化。图像深层结构的研究,涉及到计算机视觉、机器学习、人工智能、信息检索、认知科学等多个学科,希望本文的研究工作及相关结果能够为相关领域提供一些思路和借鉴。