论文部分内容阅读
随着互联网技术的迅猛发展和各种存储设备性能的大幅提升,各种图像数据数量飞速增加,如何对海量的图像数据进行有效管理成为了一个亟需解决的问题。为每幅图像分配相应的类别标签从而达到分类目的是有效管理图像数据的主要方式。早期,图像分类大多只是基于单标签学习方法,即一幅图像只对应一个类别标签,这种单标签学习方法简单易行,且在一般应用上已取得很大成功,在真实世界中,一幅图像包含的信息只用一个类别标签无法完全概括,所以采用多标签学习方法才更符合实际。现有的基于多标签学习的图像分类算法仍不够完善,很多都忽略了标签间可能存在的相关性,只是分析每个独立标签,且不能很好地处理不平衡数据。这些问题往往会导致分类结果中出现较多误分类和漏分类的现象。 本文在综合分析已有的基于多标签学习的分类算法的基础上,考虑到类别标签间的二阶相关性,给出相关性计算方法,在此基础上提出了基于标签相关性的ML-kNN分类算法,针对改进后的算法不能很好地解决数据不平衡问题,将标签组合策略和改进的SVM方法融合起来,提出了基于标签相关性和近邻统计的SVM分类算法。论文的主要工作如下: (1)提出基于标签相关性的ML-kNN多标签分类算法,该算法通过对训练数据集中每个标签和对应示例的学习,获得标签相关性大小的计算方式。在此基础上充分考虑图像类别标签之间的二阶相关性,采用标签组合扩展了原始的标签集合。实验表明,该算法可以改善多标签分类的性能。 (2)提出基于近邻标签统计的SVM多标签分类算法,该算法充分考虑类别标签所对应的示例可能存在交集,利用SMOTE进行过抽样,并使用Biased-SVM进行分类。在测试阶段对测试示例的近邻进行标签投票统计并搜索到最相关的标签组合,依次利用二阶、一阶分类器来做出分类判断。实验表明,该算法可以提高覆盖率较低标签的识别率。 (3)提出基于标签相关性和近邻统计的SVM分类算法,该算法通过对标签覆盖率ε的选取,将改进的ML-kNN算法与改进的SVM算法有效结合。实验结果表明,该算法具备良好的性能。 (4)开发了基于多标签学习的图像分类系统,该系统由图像读取、图像预处理、特征提取、图像分类几个主要的功能模块组成,利用多幅多标签图像来完成具体的图像分类工作。