论文部分内容阅读
以视觉感知为特征的机器系统具有非常广泛的应用领域,如智能视频分析、智能交通、场景识别、战场感知、景象匹配制导、遥感图像分析、图像检索、自动导航、机器人工件抓取等。然而,那些具有视觉感知能力的机器的性能及其应用前景又依赖于目标表示和识别所能达到的水平,目标表示与识别的性能水平成为了机器实现视觉感知能力的技术瓶颈,同时,它还是任何一个具有视觉感知能力的实际应用系统的核心问题和关键技术。形状是物体最基本的有感知意义的特征之一,因此对形状表示和识别方法的研究一直是计算机视觉领域的热点问题。形状表示的最大难点在于形状容易受到形变或扭曲等因素的干扰。目前,主流的基于轮廓的全局、及结构化表示方法都是依靠构建鲁棒的描述器来消除各种干扰因素对形状的影响,但这种仅依靠构建描述器的方法并不能很好的解决较大干扰因素的对形状的影响。为此,本文提出了一种新的形状表示研究思路,即:形状的潜在语义结构模型(Shape Latent Semantic Structure Model, SLSSM)。与以往构建描述器的表示方法相比,SLSSM模型不再仅依靠构建鲁棒的描述器来消除各种干扰因素对形状的影响;而是首先容忍较大形变或扭曲等干扰因素对形状局部轮廓的影响,然后通过语义分析方法挖掘出受干扰影响的局部轮廓之间的真实语义关系,从而获取形状的潜在语义结构。SLSSM模型主要包含以下几部分:特征检测、形状分割、局部轮廓描述、形状单词构建、形状语义。其中,形状单词和形状语义是本文提出的新的概念,同时也是该模型的重点和难点。形状单词的概念与文本中单词概念类似,表示的是在形态上具有相似性的一类局部轮廓。当形状受到较大干扰因素影响后,其局部轮廓在形态上的差异性会变得很大,这样的局部轮廓将会被表示为不同的形状单词,但它们之间的语义关系却是一样的;也就是说形状单词也有类似于文本单词的“近义词”语义歧义现象。为此,本文采用潜在语义模型挖掘形状单词之间的真实语义关系,从而获得形状的潜在语义结构。最后,本文在多种常用的形状数据库下验证了SLSSM形状表示模型的有效性,这些形状数据库包括:MPEG-7 CE-Shape-1形状库、Kimia99形状库、Kimia 216形状库以及Aslan和Tari构建的56张形状库。同时,通过与形状上下文算法的比较,进一步验证了SLSSM模型的有效性。