论文部分内容阅读
传统的监督学习任务处理的是单标签数据,其中每个实例只属于一个类标签。但在许多学习任务中,只考虑单标签数据结构是不全面且不适用的。因为现实生活中的对象可能同时具有多个语义和含义。随着现代应用中收集数据的多样性,获得了大量的多标签数据,如多主题的文本分类数据、多语义的图像注释数据等。多标签数据的最大特点是一个实例可能同时与多个类标签相关。在机器学习中,多标签学习通过训练基于多标签数据的模型,为不可见的实例预测相关的标签子集。多标签学习的分类性能与模型输入的数据质量紧密相关。面对高维的多标签数据,多标签学习不可避免地存在维数灾难的问题。高维的多标签数据集往往包含大量冗余和不相关的特征,这些无关和冗余的特征增加模型训练的计算量,并且容易出现过拟合导致分类性能较差。为了解决这些问题,基于多标签的特征选择算法研究越来越受到人们的关注,它的研究已成为前沿与热点。多标签特征选择的任务是剔除高维数据中无关和冗余的特征,保留可以为分类学习提供更多分类信息的有用特征。基于多标签的特征选择算法选择包含标签集合分类信息最多的特征子集,从而为多标签学习模型提供高质量的输入数据。有效的多标签特征选择算法可以降低多标签学习任务的计算代价,同时提高分类性能。现有基于信息论的多标签特征选择算法提出很多有效的特征评估标准,但是这些算法在评估特征相关性时仍然存在一些问题:1现有算法利用候选特征与每个标签的互信息之和度量特征相关性,忽略了标签冗余对特征相关性评价的影响;2在现有算法的特征相关性度量中没有区分不同标签关系对特征的不同作用以及在衡量不同候选特征时标签关系的动态变化;3在特征评估过程中没有关注具有补充关系的标签提供的最大贡献力,忽略了对特征提供最大补充信息的关键标签的作用;4现有基于信息论的多标签特征选择算法通过低阶互信息来近似评估特征与标签集之间的高阶特征相关性。然而,并没有提供低阶近似的理论基础和保障。本文针对以上基于多标签的特征选择算法中存在的4个问题开展研究工作。围绕为多标签学习任务选择高质量的特征子集这一主题,提出4种基于多标签的特征选择算法。本文的主要贡献和创新点如下:1.提出区分两种标签关系的多标签特征选择算法LRFS。首先,分析标签独立和标签依赖两种标签关系。其次,提出基于标签冗余的特征相关性度量,考虑两种标签关系对特征度量的影响,利用条件互信息评估候选特征的重要性。最后,LRFS算法设计新的特征评估标准来选择与标签集合高度相关的特征子集。2.提出基于标签补充的多标签特征选择算法LSMFS。在LSMFS中,首先定义基于特征的附加信息来计算所有具有补充关系的其他标签为特征和每个标签提供的附加信息量。然后,基于附加信息提出新的特征相关性度量,计算特征单独为每个标签提供的信息和从其他标签中捕获的附加信息。最后,提出基于标签补充的特征选择评价函数。3.提出考虑标签最大补充的多标签特征选择算法MLSMFS对LSMFS算法进行改进。首先应用条件互信息和最大操作捕捉关键标签提供的最大附加信息,然后,提出基于最大附加信息的特征相关性度量。最后,设计合理的特征评估标准度量每个特征的重要性。4.提出基于联合互信息和交互权重的特征选择算法MFSJMI。首先基于高阶标签分布提出两个基本假设:标签独立假设和成对标签独立假设。其次,通过分析两种假设的优缺点,引入联合互信息考虑更符合实际的标签分布。通过对联合互信息的分解,提出考虑多重标签相关性的交互权重。最后,基于联合互信息和交互权重设计特征评估标准来选择包含分类信息量多的特征子集。本文针对提出的4个特征选择算法使用真实多标签数据集进行了大量的实验。实验结果表明,本文提出的算法在多个评估指标上均获得了优良的分类性能。这些算法的理论丰富了特征选择领域的研究,为特征选择技术的发展起到了促进作用,具有一定的理论意义。此外,这些算法可以直接用于多标签学习任务的预处理阶段对收集到的高维数据进行处理,为后续的模型学习阶段提供高质量的数据输入,具有一定的应用价值。