论文部分内容阅读
在大数据时代,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。目前,大多数特征选择方法主要应用于单标签数据,然而,随着数据维度和标签的不断增加,特征选择已经广泛的应用于多标签数据,并产生了较好的分类效果。传统的一些多标签特征选择算法大多度量特征与整体标签集合的相关性,并选取一组相关性较大的特征子集,然而,多标签数据中的标签间存在着复杂的结构关系,如果仅仅去度量特征与标签间的相关性而不考虑标签间的结构关系,可能会漏选一些重要特征或者误选一些非重要的特征,与此同时,如果仅仅从单个方面去考虑标签结构关系,可能对标签集合的研究还远远不够,以至于影响最优特征子集的选取。此外,多标签数据中除了标签间存在着一些结构关系,特征间也存在着一些复杂的结构关系,所以,如何充分考虑并结合标签间和特征间的结构关系,去选取最优的特征子集,是一个重要的研究问题。本文针对以上问题在多标签特征选择算法上做了以下三点研究。
首先,考虑了标签集合中标签间的相关性结构关系,提出一种基于标签组合的多标签特征选择算法—LG_MLFS。该算法考虑了标签集合的组合结构关系,将标签集合中相关的标签分为一个组合。在每个标签组合中,对每个标签赋予在该标签组合中的标签重要性权重。算法分别选取与每个标签组合相关的特征,并将与每个标签组合相关的特征子集取并集作为算法最终选取的最优特征子集。实验结果表明,LG_MLFS算法在多个数据集和评价指标下,与对比算法相比产生了较优的分类性能。
其次,从多个角度考虑标签结构关系,提出了一种多角度标签结构和特征融合的多标签特征选择—MLSFF。该算法根据从三个角度考虑标签结构关系,分别提取出三种不同的特征子集,利用三种特征子集间的融合,将特征空间划分成三种不同重要性的特征子空间,针对三种不同的子空间,设置三种不同的选取比率,在每个子空间中选取一些低冗余特征。实验结果表明,MLSFF算法选取了一组较优的特征子集,且实现了较好的分类效果。
最后,考虑了特征集合中特征间的相关性结构,并结合标签重要性结构提出了一种基于相关特征组的多标签特征选择算法—CFGFS。该算法考虑了特征间的组合结构关系,将相关的特征分为一个特征组。利用标签重要性将标签集合分为重要标签与非重要标签两组,并将两组标签设置不同的权重。结合两组不同权重的标签,在每个特征组中选取代表性特征并进行去冗余处理。实验结果表明CFGFS算法在多个数据集和评价指标下,能选取一组较优的特征子集,产生较好的分类性能。
首先,考虑了标签集合中标签间的相关性结构关系,提出一种基于标签组合的多标签特征选择算法—LG_MLFS。该算法考虑了标签集合的组合结构关系,将标签集合中相关的标签分为一个组合。在每个标签组合中,对每个标签赋予在该标签组合中的标签重要性权重。算法分别选取与每个标签组合相关的特征,并将与每个标签组合相关的特征子集取并集作为算法最终选取的最优特征子集。实验结果表明,LG_MLFS算法在多个数据集和评价指标下,与对比算法相比产生了较优的分类性能。
其次,从多个角度考虑标签结构关系,提出了一种多角度标签结构和特征融合的多标签特征选择—MLSFF。该算法根据从三个角度考虑标签结构关系,分别提取出三种不同的特征子集,利用三种特征子集间的融合,将特征空间划分成三种不同重要性的特征子空间,针对三种不同的子空间,设置三种不同的选取比率,在每个子空间中选取一些低冗余特征。实验结果表明,MLSFF算法选取了一组较优的特征子集,且实现了较好的分类效果。
最后,考虑了特征集合中特征间的相关性结构,并结合标签重要性结构提出了一种基于相关特征组的多标签特征选择算法—CFGFS。该算法考虑了特征间的组合结构关系,将相关的特征分为一个特征组。利用标签重要性将标签集合分为重要标签与非重要标签两组,并将两组标签设置不同的权重。结合两组不同权重的标签,在每个特征组中选取代表性特征并进行去冗余处理。实验结果表明CFGFS算法在多个数据集和评价指标下,能选取一组较优的特征子集,产生较好的分类性能。