结合互信息和特征标签关系的多标签特征选择研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:squallcl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。目前,大多数特征选择方法主要应用于单标签数据,然而,随着数据维度和标签的不断增加,特征选择已经广泛的应用于多标签数据,并产生了较好的分类效果。传统的一些多标签特征选择算法大多度量特征与整体标签集合的相关性,并选取一组相关性较大的特征子集,然而,多标签数据中的标签间存在着复杂的结构关系,如果仅仅去度量特征与标签间的相关性而不考虑标签间的结构关系,可能会漏选一些重要特征或者误选一些非重要的特征,与此同时,如果仅仅从单个方面去考虑标签结构关系,可能对标签集合的研究还远远不够,以至于影响最优特征子集的选取。此外,多标签数据中除了标签间存在着一些结构关系,特征间也存在着一些复杂的结构关系,所以,如何充分考虑并结合标签间和特征间的结构关系,去选取最优的特征子集,是一个重要的研究问题。本文针对以上问题在多标签特征选择算法上做了以下三点研究。
  首先,考虑了标签集合中标签间的相关性结构关系,提出一种基于标签组合的多标签特征选择算法—LG_MLFS。该算法考虑了标签集合的组合结构关系,将标签集合中相关的标签分为一个组合。在每个标签组合中,对每个标签赋予在该标签组合中的标签重要性权重。算法分别选取与每个标签组合相关的特征,并将与每个标签组合相关的特征子集取并集作为算法最终选取的最优特征子集。实验结果表明,LG_MLFS算法在多个数据集和评价指标下,与对比算法相比产生了较优的分类性能。
  其次,从多个角度考虑标签结构关系,提出了一种多角度标签结构和特征融合的多标签特征选择—MLSFF。该算法根据从三个角度考虑标签结构关系,分别提取出三种不同的特征子集,利用三种特征子集间的融合,将特征空间划分成三种不同重要性的特征子空间,针对三种不同的子空间,设置三种不同的选取比率,在每个子空间中选取一些低冗余特征。实验结果表明,MLSFF算法选取了一组较优的特征子集,且实现了较好的分类效果。
  最后,考虑了特征集合中特征间的相关性结构,并结合标签重要性结构提出了一种基于相关特征组的多标签特征选择算法—CFGFS。该算法考虑了特征间的组合结构关系,将相关的特征分为一个特征组。利用标签重要性将标签集合分为重要标签与非重要标签两组,并将两组标签设置不同的权重。结合两组不同权重的标签,在每个特征组中选取代表性特征并进行去冗余处理。实验结果表明CFGFS算法在多个数据集和评价指标下,能选取一组较优的特征子集,产生较好的分类性能。
其他文献
学位
学位
学位
学位
学位
学位
学位
随着大数据时代的来临,全球互联网产业展现出巨大的发展活力和韧性,在数字基建和数字经济迅猛发展的同时,我国网民规模、互联网普及率以及平均每周上网时长都有迅速增加扩大趋势,这导致网民们每天都充斥在海量的网络信息里,产生了严重的信息过载问题。如何解决当前信息过载问题已经非常迫切,需要对海量信息进行信息抽取和过滤,减轻负担。而对于信息抽取最重要的一环就是自动文摘,自动文摘就是利用计算机对文本中心内容进行简
大数据时代带来了信息量的指数增长,现实中各行各业积累了巨量的数据。由于数据采集难度和事件发生频率的不同,导致了各个类别的样本数量具有差异,形成了类别不平衡问题。类别不平衡问题造成了传统机器学习分类器的分类精度下降。已有的代价敏感学习方法能够较好地处理类别不平衡问题,然而复杂的类别中蕴含了类与类之间的层次结构关系。数据中类别具有层次关系的样本分布不平衡问题给机器学习分类任务带来了很大的挑战:(1)少
学位
在多标记学习中,由于丰富的标记结果需要由大量的特征属性描述,同时标记间自由组合的标记子集数量随着标记数量的增加而呈指数型增长,在样本有限的情况下导致只有少数标记子集具有样本描述且这些标记子集的平均覆盖样本数量较少,这表现为多标记学习中的两个特点:特征维度高和不均衡学习,因此多数传统的单标记特征选择算法无法很好的直接应用到多标记学习任务中。本文以经典的FisherScore单标记特征选择算法为研究对
学位