论文部分内容阅读
大数据时代下,在生产实践中获取的属性越来越多。一部分属性可能是冗余的或与分类任务无关,在进一步数据处理之前需要将它们删除。特征选择(也称为属性约简)是一种用于减少特征的技术,其目的是找到最佳特征子集来预测样本类别。无论是单标签数据还是多标签数据,特征选择过程中都存在一个关键问题:特征评估。对于多标签数据,已有的工作往往对标签之间的关系考虑不够,直接影响了多标签特征选择的性能和多标签学习的效果。针对以上问题,本文结合邻域粗糙集和F-粗糙集的优势,提出了一种新的粗糙集模型——F-邻域粗糙集,并利用F-邻域粗糙集进行单标签特征选择和多标签特征选择。主要研究内容如下:首先,结合邻域粗糙集和F-粗糙集的优势,提出了F-邻域粗糙集。定义了F-邻域粗糙集的邻域关系,使用邻域决策子系统来表示不同情况,并讨论了其性质。同时以F-属性依赖度和属性重要度矩阵进行特征评估,并根据两种评估标准设计了两个特征选择算法。与近年来的算法对比,实验结果表明本文的算法具有较大的优势。其次,将F-邻域粗糙集模型从单标签学习扩展至多标签学习。F-邻域粗糙集把多标签数据分解成多个单标签决策表。然后用多个单标签决策表的属性依赖度进行信息融合,并充分考虑了多个标签之间的关系。用多个单标签决策表的属性依赖度和基于属性重要度矩阵进行多标签特征选择。与近年来的算法对比,实验结果表明,该算法在文本和图像多标签学习任务中都存在较大的优势。本文的主要创新点如下:(1)提出了F-邻域粗糙集模型。该模型同时具有邻域粗糙集和F-粗糙集的优势。(2)提出了基于属性重要性矩阵的特征选择算法(NPRMS)。该算法不仅适用于离散数据,而且适用于连续数据,不仅适用于静态数据而且适用于动态数据,具有很好的鲁棒性。(3)在多标签数据学习下,提出了基于属性重要性矩阵的特征选择算法(FNPRMS)。该算法继承了NPRMS算法的优势,并且充分考虑了多标签之间的关系,不需要进行空间转换,具有很好的可理解性。