论文部分内容阅读
随着信息技术的不断发展和大数据时代的到来,各个不同的领域产生了大量的多标签数据集,而且数据集的规模也越来越大.如何有效地挖掘或者学习这种大规模的数据集以得到有价值的信息是一个亟需解决的问题.对于多标签学习,其有三个主要特征:(1)训练集中的每个数据样本均对应于由多个标签组成的标签集,而且标签和标签之间是有关联的;(2)对于每个标签而言,标签特有特征可以获取标签更多的信息,即丰富了标签的信息;(3)在多标签分类学习中存在着类不平衡的问题,即多标签数据集并非均匀分布.本文基于上述特征,对多标签数据集进行研究,主要工作如下:基于标签特征和标签相关性,本文提出了一种多标签分类算法LP-LFLC.该算法的基本思想是:对于每个标签,首先,通过聚类相关技术以及距离公式等构造一个特征映射函数;然后,将原始数据特征空间转化为特定的特征空间,以得到每个标签的标签特征集,这很好地丰富了标签的信息;其次,使用基于实例最近邻的方法利用标签之间的相关性以扩充每个标签的标签特征集;最后,利用MATLAB软件与六种经典的多标签分类算法在八个常见的数据集上进行实验仿真,实验结果证实了LP-LFLC算法有着较好的分类性能.考虑到如何更好地改善类不平衡的问题以及更加有效地利用标签特有特征和标签相关性,本文结合LP-LFLC算法中的基本思路,在该算法的基础上进行改进,提出了一种新的多标签分类算法LSFLC,它可以更加有效地集成标签特有特征和标签相关性以构建分类模型或分类器.LSFLC算法的主要过程为:首先,对于每个标签,我们通过重采样技术迭代产生新的正类实例以扩充标签的正类实例集;其次,通过LP-LFLC中构造的特征映射函数将原始数据特征空间转换为特定的特征空间,得到每个标签的标签特征集;然后,对于每个标签,通过构造共现矩阵找到与其最正相关的标签,进而复制该标签的正类实例以扩大其标签特征集;最后,在实验部分中,相比于LP-LFLC算法和其他几种经典的多标签分类算法,在八种不同的数据集上进行实验仿真,实验结果证实了LSFLC分类算法有着更好的分类性能.本文提出了两种基于标签特征和相关性的多标签分类算法,通过理论分析和实验仿真验证,证明了所提出的算法的有效性.