论文部分内容阅读
【摘 要】视觉属性作为图像表示的中间层,具有人类可理解的语义特征,同时比图像底层特征存储方便,简洁高效,能够实现跨类识别。本文介绍了属性的定义及分类,讨论了属性预测方法,并对图像视觉属性应用的领域进行了探讨,分析了在各个应用中的优势及不足。最后对视觉属性的发展前景进行了展望。
【关键词】视觉属性;属性分类;属性预测;应用
1.引言
图像可以用属性进行语义描述,属性可以表示图像中对象是否存在,它可以描述对象的颜色、形状、材质、部件、类别及功能,也可以表示场景的类别以及上下文信息等。如斑马是黑白相间、有条纹的动物,这里使用了颜色、纹理属性,飞机可以用有机翼、 轮子、 发动机等部件属性进行描述,也可以用是金属的、能够飞行的材质属性和功能属性进行描述。 近年来,属性被广泛地应用于计算机视觉问题研究,如对象识别[1-3]、人脸识别[4]、场景识别[5]、视频中的行为识别[6]、服装的风格识别[7-8]、细粒度图像识别等问题。属性已经成为搭建图像底层特征到高层语义的桥梁,并且展示了自己独特功能。
2.属性定义及分类
2.1二值视觉属性
视觉属性的值可以是离散的,或者连续的。大部分研究者为了使用属性进行分类,把属性的值定义为存在或不存在两种选择,称之为二值视觉属性,即每个属性的取值范围只有1或者0。如Farhadi[1]用二值属性描述动物山羊,有角、有四条腿、有头、有毛,用二值属性描述对象的构成、形状、材质等信息,建了APascal-aYahoo dataset,收集了15339幅图像,32个类别,64个二值属性 ,Lampert建立了Animal with Attribute dataset,收集了30000幅动物图像,50个类别,85个二值属性。Patterson and Hay建立了The Sun Attribute dataset,包含了14340幅图像,717类别,102个二值属性。
2.2相对视觉属性
从人类的认知角度出发,认识和理解事物有时并不能从存在或不存在的角度去区分,有时需要运用比较的方法去区分。Parikh和Grauman最先提出了相对视觉属性,相对视觉属性是指和其他图像相比,图像中某个属性的强度或优势。如一幅图像开始不能确定人是否有微笑这个属性。和不同的图像比较,比A图像微笑程度弱,比B图像微笑程度强。如果只用二值属性来表示,就无法表示。因为这个属性表示一种程度。相对属性将属性的取值范围扩大,从(0,1)变成(?∞,+∞)。相对属性的重要作用在于对样本中同一属性的属性值相对关系进行比较,确定排序关系。Parikh和Grauman提出通过对每个属性学习排序函数的方法,给每對样本给出相对相似性约束。但是对于不同的属性,不同的属性值,不具备可比性。
3.属性预测
属性作为图像的中间层表示,在计算机视觉的各个领域中发挥了非常重要的作用。因此提取图像底层特征构建属性分类器,进行属性预测是一个必不可少的環节。Lampert提出了直接属性预测模型DAP(Direct attribute prediction)和间接属性预测模型IAP(Indict attribute prediction) 。DAP模型建立了固定的类别-属性关系,通过样本与类别间的训练,蕴含了对属性值的训练,从而取得了相关分类器参数。在测试阶段,测试样本的属性值可直接获取,从而可以推知样本所属的类别,这个类别也可以是一种训练阶段未见样本的类别。IAP模型通过训练样本获得每类的概率,其次获得这些类别与属性间的依赖关系。Wang[3]提出了条件随机场模型的属性预测方法,Yu[14]提出了概率主题模型,Scheirer将属性分类器输出转化成基于极值理论的可能性估计问题。Parikh and Grauman进行了相对属性预测。
4.视觉属性应用
4.1对象识别
2009年,Farhadi[1]提出用属性来描述对象,属性可以是对象的组成部分,可以是形状,也可以是材质,并且指明属性具有区别对象类的作用,使用了1000个具有类区分能力的属性。提取图像底层特征用线性SVM分类器对属性分类器进行训练学习,再通过图像的属性中间层表示进行图像分类,对象的属性表示不仅能够识别对象类,而且还可以形成新的对象类。同年,Lampert也提出用属性表示对象,研究了训练类和测试类不相交的情况下,用属性表示图像,缺少训练集图像的情况下,依然能够识别新的对象类。并提出了DAP和IAP两个属性预测模型。不同的类别间可以共享属性,属性的特殊性使得它在转换学习或零命中学习领域得到了比较广泛的应用。
4.2人脸识别
Kumar et al.[4]使用了两种分类器:属性分类器和Simile分类器。用年龄、性别、头发颜色等视觉属性表示人脸,采用人工标注的人脸图像学习分类器构建属性模型,然后用属性分类器输出的属性值构建人脸表示。Simile分类器采用某个具体的人脸区域作为正例定义属性,属性值代表了其它人脸的对应区域与它的相似程度。提出的这两种分类器加速了自然条件下人脸识别的性能,在LFW (Labeled Faces in the Wild)数据集上取得了较好的识别效果。
4.3场景识别
场景识别的目标是使计算机能够从人类的认知角度来理解图像的场景语义信息,有效辨别图像场景类内差异性和场景类间相似性。Vogel and Schiele[5]对本地图像区域进行语义属性描述,如一幅图像可以描述成水、岩石、植物等。图像可以用这些区域语义属性出现的概率来表示,并把它运用到图像的场景分类和检索中。
4.4行为识别
Liu J G et al.[6]用属性来描述人类的各种动作,首先人为设定动作的一些属性,作为潜在变量,同时从数据中学习一些数据驱动属性,用信息论的方法从训练集推导出这些属性。建立了潜在SVM模型,潜在变量表示每一个行为类的每一个属性的重要程度,这些数据驱动属性扩展了人为设定属性的范围,提高了动作识别的精确性。 5.結束語
在互联网大数据时代,在对存储和计算要求较高的情况下,如大规模的图像检索和移动平台上的图像检索,基于视觉属性的中层图像表示往往比基于视觉底层特征的图像表示更简洁高效。视觉属性表达了人类可理解的语义特征,有助于将以往学习到的属性知识迁移到新的对象或类别上,从而减少对训练数据的需求。同时视觉属性有利于人机进行交互。目前,视觉属性已经应用于计算机视觉的各个领域,并且会在更多的领域得到广泛的应用。
参考文献:
[1]Farhadi A,Endres I,Hoiem D,et al. Describing objects by their attributes[C].Computer Vision and Pattern Recognition,IEEE Conference on 20091778 -1785.
[2]Felix X.Yu, Liangliang Cao, Rogerio S. Feris, John R. Smith, Shih-Fu Chang. Designing Category-Level Attributes for Discriminative Visual Recognition[C].IEEE Conference on Computer Vision and Pattern Recognition,2013,771-778.
[3]Wang Y,Mori G.A discriminative latent model of object classes and attributes[C] . Computer Vision–ECCV 2010,Lecture Notes in Computer Science Volume 6315,2010,155-168.
[4]Kumar N,Berg A C, Belhumeur P N et al. Attribute and simile classifiers for face verification[C]. Proceedings of the IEEE International Conference on Computer Vision.2009:365 -372.
[5]Julia Vogel,Bernt Schiele.Semantic Modeling of Natural Scenes for Content-Based Image Retrieval[J].International Journal of Computer Vision,2007,72(2):133–157.
[6]Jingen Liu,B.Kuipers,S. Savarese. Recognizing human actions by attributes[C]. IEEE Conference on Computer Vision and Pattern Recognition,2011,3337-3344.
[7]Lukas Bossard,Matthias Dantone et al. Apparel Classification with Style[C]. Computer Vision–ACCV 2012,Lecture Notes in Computer Science Volume 7727, 2013, 321-335.
[8]M.Hadi Kiapour, Kota Yamaguchi. Hipster Wars: Discovering Elements of Fashion Styles[C].Computer Vision–ECCV 2014,Lecture Notes in Computer Science Volume 8689,2014,472-488.
【关键词】视觉属性;属性分类;属性预测;应用
1.引言
图像可以用属性进行语义描述,属性可以表示图像中对象是否存在,它可以描述对象的颜色、形状、材质、部件、类别及功能,也可以表示场景的类别以及上下文信息等。如斑马是黑白相间、有条纹的动物,这里使用了颜色、纹理属性,飞机可以用有机翼、 轮子、 发动机等部件属性进行描述,也可以用是金属的、能够飞行的材质属性和功能属性进行描述。 近年来,属性被广泛地应用于计算机视觉问题研究,如对象识别[1-3]、人脸识别[4]、场景识别[5]、视频中的行为识别[6]、服装的风格识别[7-8]、细粒度图像识别等问题。属性已经成为搭建图像底层特征到高层语义的桥梁,并且展示了自己独特功能。
2.属性定义及分类
2.1二值视觉属性
视觉属性的值可以是离散的,或者连续的。大部分研究者为了使用属性进行分类,把属性的值定义为存在或不存在两种选择,称之为二值视觉属性,即每个属性的取值范围只有1或者0。如Farhadi[1]用二值属性描述动物山羊,有角、有四条腿、有头、有毛,用二值属性描述对象的构成、形状、材质等信息,建了APascal-aYahoo dataset,收集了15339幅图像,32个类别,64个二值属性 ,Lampert建立了Animal with Attribute dataset,收集了30000幅动物图像,50个类别,85个二值属性。Patterson and Hay建立了The Sun Attribute dataset,包含了14340幅图像,717类别,102个二值属性。
2.2相对视觉属性
从人类的认知角度出发,认识和理解事物有时并不能从存在或不存在的角度去区分,有时需要运用比较的方法去区分。Parikh和Grauman最先提出了相对视觉属性,相对视觉属性是指和其他图像相比,图像中某个属性的强度或优势。如一幅图像开始不能确定人是否有微笑这个属性。和不同的图像比较,比A图像微笑程度弱,比B图像微笑程度强。如果只用二值属性来表示,就无法表示。因为这个属性表示一种程度。相对属性将属性的取值范围扩大,从(0,1)变成(?∞,+∞)。相对属性的重要作用在于对样本中同一属性的属性值相对关系进行比较,确定排序关系。Parikh和Grauman提出通过对每个属性学习排序函数的方法,给每對样本给出相对相似性约束。但是对于不同的属性,不同的属性值,不具备可比性。
3.属性预测
属性作为图像的中间层表示,在计算机视觉的各个领域中发挥了非常重要的作用。因此提取图像底层特征构建属性分类器,进行属性预测是一个必不可少的環节。Lampert提出了直接属性预测模型DAP(Direct attribute prediction)和间接属性预测模型IAP(Indict attribute prediction) 。DAP模型建立了固定的类别-属性关系,通过样本与类别间的训练,蕴含了对属性值的训练,从而取得了相关分类器参数。在测试阶段,测试样本的属性值可直接获取,从而可以推知样本所属的类别,这个类别也可以是一种训练阶段未见样本的类别。IAP模型通过训练样本获得每类的概率,其次获得这些类别与属性间的依赖关系。Wang[3]提出了条件随机场模型的属性预测方法,Yu[14]提出了概率主题模型,Scheirer将属性分类器输出转化成基于极值理论的可能性估计问题。Parikh and Grauman进行了相对属性预测。
4.视觉属性应用
4.1对象识别
2009年,Farhadi[1]提出用属性来描述对象,属性可以是对象的组成部分,可以是形状,也可以是材质,并且指明属性具有区别对象类的作用,使用了1000个具有类区分能力的属性。提取图像底层特征用线性SVM分类器对属性分类器进行训练学习,再通过图像的属性中间层表示进行图像分类,对象的属性表示不仅能够识别对象类,而且还可以形成新的对象类。同年,Lampert也提出用属性表示对象,研究了训练类和测试类不相交的情况下,用属性表示图像,缺少训练集图像的情况下,依然能够识别新的对象类。并提出了DAP和IAP两个属性预测模型。不同的类别间可以共享属性,属性的特殊性使得它在转换学习或零命中学习领域得到了比较广泛的应用。
4.2人脸识别
Kumar et al.[4]使用了两种分类器:属性分类器和Simile分类器。用年龄、性别、头发颜色等视觉属性表示人脸,采用人工标注的人脸图像学习分类器构建属性模型,然后用属性分类器输出的属性值构建人脸表示。Simile分类器采用某个具体的人脸区域作为正例定义属性,属性值代表了其它人脸的对应区域与它的相似程度。提出的这两种分类器加速了自然条件下人脸识别的性能,在LFW (Labeled Faces in the Wild)数据集上取得了较好的识别效果。
4.3场景识别
场景识别的目标是使计算机能够从人类的认知角度来理解图像的场景语义信息,有效辨别图像场景类内差异性和场景类间相似性。Vogel and Schiele[5]对本地图像区域进行语义属性描述,如一幅图像可以描述成水、岩石、植物等。图像可以用这些区域语义属性出现的概率来表示,并把它运用到图像的场景分类和检索中。
4.4行为识别
Liu J G et al.[6]用属性来描述人类的各种动作,首先人为设定动作的一些属性,作为潜在变量,同时从数据中学习一些数据驱动属性,用信息论的方法从训练集推导出这些属性。建立了潜在SVM模型,潜在变量表示每一个行为类的每一个属性的重要程度,这些数据驱动属性扩展了人为设定属性的范围,提高了动作识别的精确性。 5.結束語
在互联网大数据时代,在对存储和计算要求较高的情况下,如大规模的图像检索和移动平台上的图像检索,基于视觉属性的中层图像表示往往比基于视觉底层特征的图像表示更简洁高效。视觉属性表达了人类可理解的语义特征,有助于将以往学习到的属性知识迁移到新的对象或类别上,从而减少对训练数据的需求。同时视觉属性有利于人机进行交互。目前,视觉属性已经应用于计算机视觉的各个领域,并且会在更多的领域得到广泛的应用。
参考文献:
[1]Farhadi A,Endres I,Hoiem D,et al. Describing objects by their attributes[C].Computer Vision and Pattern Recognition,IEEE Conference on 20091778 -1785.
[2]Felix X.Yu, Liangliang Cao, Rogerio S. Feris, John R. Smith, Shih-Fu Chang. Designing Category-Level Attributes for Discriminative Visual Recognition[C].IEEE Conference on Computer Vision and Pattern Recognition,2013,771-778.
[3]Wang Y,Mori G.A discriminative latent model of object classes and attributes[C] . Computer Vision–ECCV 2010,Lecture Notes in Computer Science Volume 6315,2010,155-168.
[4]Kumar N,Berg A C, Belhumeur P N et al. Attribute and simile classifiers for face verification[C]. Proceedings of the IEEE International Conference on Computer Vision.2009:365 -372.
[5]Julia Vogel,Bernt Schiele.Semantic Modeling of Natural Scenes for Content-Based Image Retrieval[J].International Journal of Computer Vision,2007,72(2):133–157.
[6]Jingen Liu,B.Kuipers,S. Savarese. Recognizing human actions by attributes[C]. IEEE Conference on Computer Vision and Pattern Recognition,2011,3337-3344.
[7]Lukas Bossard,Matthias Dantone et al. Apparel Classification with Style[C]. Computer Vision–ACCV 2012,Lecture Notes in Computer Science Volume 7727, 2013, 321-335.
[8]M.Hadi Kiapour, Kota Yamaguchi. Hipster Wars: Discovering Elements of Fashion Styles[C].Computer Vision–ECCV 2014,Lecture Notes in Computer Science Volume 8689,2014,472-488.