论文部分内容阅读
随着现代社会的信息技术发展和现实需要,图像作为信息的一种快速、有效地描述方式和存储载体,获得了大众的广泛关注。如何让计算机按照人脑对信息的解译方式准确地、快速地从大量的图像信息中自动获取所需的信息,成为了计算机视觉领域中一个亟待解决的问题。多标记学习是针对现实世界中普遍存在的多义性对象而提出的一种学习框架,目前广泛应用于目标分类和识别问题中。由于尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)可以克服由图像平移、旋转、亮度和尺度变化带来的误分,且该方法对于光线、噪声、微视角改变、部分物体遮蔽的容忍度也相当高,在文本分类、自然场景分类和视频分类中均取得了较好的结果。因此,本文基于SIFT特征表示,利用空间金字塔模型的稀疏编码和局部线性约束编码方式对特征进行编码,利用多标记k近邻(Multi-Label k-Nearest-Neighbor,ML-kNN)和排序支撑矢量机(Rank Support Vector Machine,Rank-SVM)对目标进行多标记分类。(1)提出了一种基于SIFT特征表示和稀疏编码的自然场景多标记分类方法,本方法通过提取图像的密集SIFT特征,首先用空间金字塔稀疏编码模型对图像进行特征表示和编码,然后用最大化池化方式得到图像的特征分布,最后用两种多标记分类方法分别对自然场景进行分类,得到自然场景图像的分类结果。该方法丰富了图像的空间信息,且特征得到了高效地编码,从而可得到更好的分类结果。(2)提出了一种基于SIFT特征表示和局部线性约束编码的自然场景多标记分类方法,本方法通过从不同尺度提取图像的密集SIFT特征,建立多尺度字典,结合空间金字塔局部线性约束编码模型对图像进行特征表示和编码,然后用最大化池化方式对图像特征分布进行统计并用限制玻尔兹曼机进行特征降维,最后用两种多标记分类方法分别对自然场景进行分类,得到自然场景的多标记分类结果。该方法不仅丰富了图像的空间信息,还丰富了特征的尺度信息,且局部线性约束编码更快速、有效,经过限制玻尔兹曼机降维处理的数据大大节省了多标记分类方法的学习和分类时间,而且得到了更高的分类精度。