基于多标签的特征选择算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户：ylm1982123

【摘要】

：

【作者】

：

张平

【机构】

：

吉林大学

【出处】

：

吉林大学

【发表日期】

：

2021年01期

【关键词】

：

监督学习多标签学习多标签特征选择信息论特征相关性标签关系

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的监督学习任务处理的是单标签数据,其中每个实例只属于一个类标签。但在许多学习任务中,只考虑单标签数据结构是不全面且不适用的。因为现实生活中的对象可能同时具有多个语义和含义。随着现代应用中收集数据的多样性,获得了大量的多标签数据,如多主题的文本分类数据、多语义的图像注释数据等。多标签数据的最大特点是一个实例可能同时与多个类标签相关。在机器学习中,多标签学习通过训练基于多标签数据的模型,为不可见的实例预测相关的标签子集。多标签学习的分类性能与模型输入的数据质量紧密相关。面对高维的多标签数据,多标签学习不可避免地存在维数灾难的问题。高维的多标签数据集往往包含大量冗余和不相关的特征,这些无关和冗余的特征增加模型训练的计算量,并且容易出现过拟合导致分类性能较差。为了解决这些问题,基于多标签的特征选择算法研究越来越受到人们的关注,它的研究已成为前沿与热点。多标签特征选择的任务是剔除高维数据中无关和冗余的特征,保留可以为分类学习提供更多分类信息的有用特征。基于多标签的特征选择算法选择包含标签集合分类信息最多的特征子集,从而为多标签学习模型提供高质量的输入数据。有效的多标签特征选择算法可以降低多标签学习任务的计算代价,同时提高分类性能。现有基于信息论的多标签特征选择算法提出很多有效的特征评估标准,但是这些算法在评估特征相关性时仍然存在一些问题:1现有算法利用候选特征与每个标签的互信息之和度量特征相关性,忽略了标签冗余对特征相关性评价的影响;2在现有算法的特征相关性度量中没有区分不同标签关系对特征的不同作用以及在衡量不同候选特征时标签关系的动态变化;3在特征评估过程中没有关注具有补充关系的标签提供的最大贡献力,忽略了对特征提供最大补充信息的关键标签的作用;4现有基于信息论的多标签特征选择算法通过低阶互信息来近似评估特征与标签集之间的高阶特征相关性。然而,并没有提供低阶近似的理论基础和保障。本文针对以上基于多标签的特征选择算法中存在的4个问题开展研究工作。围绕为多标签学习任务选择高质量的特征子集这一主题,提出4种基于多标签的特征选择算法。本文的主要贡献和创新点如下:1.提出区分两种标签关系的多标签特征选择算法LRFS。首先,分析标签独立和标签依赖两种标签关系。其次,提出基于标签冗余的特征相关性度量,考虑两种标签关系对特征度量的影响,利用条件互信息评估候选特征的重要性。最后,LRFS算法设计新的特征评估标准来选择与标签集合高度相关的特征子集。2.提出基于标签补充的多标签特征选择算法LSMFS。在LSMFS中,首先定义基于特征的附加信息来计算所有具有补充关系的其他标签为特征和每个标签提供的附加信息量。然后,基于附加信息提出新的特征相关性度量,计算特征单独为每个标签提供的信息和从其他标签中捕获的附加信息。最后,提出基于标签补充的特征选择评价函数。3.提出考虑标签最大补充的多标签特征选择算法MLSMFS对LSMFS算法进行改进。首先应用条件互信息和最大操作捕捉关键标签提供的最大附加信息,然后,提出基于最大附加信息的特征相关性度量。最后,设计合理的特征评估标准度量每个特征的重要性。4.提出基于联合互信息和交互权重的特征选择算法MFSJMI。首先基于高阶标签分布提出两个基本假设:标签独立假设和成对标签独立假设。其次,通过分析两种假设的优缺点,引入联合互信息考虑更符合实际的标签分布。通过对联合互信息的分解,提出考虑多重标签相关性的交互权重。最后,基于联合互信息和交互权重设计特征评估标准来选择包含分类信息量多的特征子集。本文针对提出的4个特征选择算法使用真实多标签数据集进行了大量的实验。实验结果表明,本文提出的算法在多个评估指标上均获得了优良的分类性能。这些算法的理论丰富了特征选择领域的研究,为特征选择技术的发展起到了促进作用,具有一定的理论意义。此外,这些算法可以直接用于多标签学习任务的预处理阶段对收集到的高维数据进行处理,为后续的模型学习阶段提供高质量的数据输入,具有一定的应用价值。

其他文献

毒品犯罪明知之证明与推定研究

毒品犯罪中明知的认定问题长期以来是法学理论研究和司法实践中的一个难题,作为人的内心活动,其本身就具有难以证明的特性,日益隐蔽、不断变化的毒品犯罪更是加剧了明知的认定难度。在行为人否认明知时,事实认定者只能依靠外在的证据来进行推论或推定,因此,证明和推定便成为毒品犯罪明知认定的两种方式。毒品犯罪的明知认定问题涉及实体法和程序法的内容,为此必须在刑事一体化的理念下进行整体分析。大陆法系和英美法系在犯罪

学位

毒品犯罪明知证明明知推定人权保障司法文明

集团企业财务管理模式和创新策略探讨

伴随着我国企业体制的不断改革,以及全球化竞争的不断开展,部分企业正在推行大集团战略,这导致我国的企业组织集团化,经营多元化的发展趋势,也逐渐出现了越来越多的跨地区、跨行业、跨所有制的企业经营模式。在这些变化发生的基础上,要加强对于集团的财务管理监管制度。本文对传统的财务管理模式进行了详细的分析,并对集团财务管理的发展形势,以及当前在集团财务管理中面临的问题进行分析,总结了提升集团财务管理模式的创新

期刊

集团企业财务管理模式创新策略

2015年与2019年江苏省40岁及以上人群慢性阻塞性肺疾病疾病负担及吸烟归因疾病负担研究

目的了解2015年与2019年江苏省40岁及以上人群慢性阻塞性肺疾病（COPD）的疾病负担及吸烟导致的归因疾病负担,为行政部门制定COPD防控策略提供科学依据。方法于2015年和2019年,采用多阶段分层整群抽样方法分别选取3 600名江苏省40岁及以上居民为研究对象,进行问卷调查和肺功能检查。结合2015年和2019年江苏省死亡登记信息,采用Excel 2019和SPSS 26.0统计软件计算2

期刊

慢性阻塞性肺疾病疾病负担归因疾病负担吸烟

四轮轮毂驱动电动汽车扭矩优化分配方法的研究

随着能源安全、环境污染、气候变化等问题日益严重,动力系统加速向以纯电驱动为主线的清洁低碳化方向转型。四轮轮毂驱动电动汽车凭借四轮独立转向、动力传递效率高等构型方面的优势以及降低整车能耗、提升整车稳定性与安全性等方面较高的潜力,逐渐成为全球汽车动力系统转型升级的重要方向之一。扭矩优化分配方法作为四轮轮毂驱动电动汽车核心研究课题,在工程化实现过程中,存在诸如兼顾经济性与稳定性的纵向驱动力分配、基于转矩

学位

四轮轮毂驱动电动汽车纵向驱动力分配驱动防滑转矩矢量控制模型预测控制

基于改进PERT的关键链技术进度优化研究

项目管理主要包括进度管理、风险管理、成本管理、质量管理等,其中进度管理是衡量一个项目工程管理水平高低的重要指标之一。但是随着国家城市化进程的迅猛发展,工程项目的数量和规模随之增大,其在实施过程中面临的风险因素和不确定性也逐渐增多。针对项目进度管理中普遍存在进度超期、资源冲突等问题的现状,如何科学合理的进行进度管理已经成为项目管理过程中的重要任务。关键链技术恰好在缩短工期、解决资源冲突等方面具有显著

学位

关键链关键路线工程进度管理蒙特卡洛模拟缓冲区

协调发展理念与中国实践研究

学位

村落共同体视域下乡村“复合治理”研究 ——以Y省M村为例

在学界早期的理论研究中,所谓复合治理,强调的是治理规则的交互与整合,尤其是宏观制度与地方规则的复合。近年来,随着国家对共治共建共享理念的大力提倡,目前的大部分研究都将复合治理视为一种多元主体合作协商的治理方式。从社会治理的内在逻辑来看,治理过程所展现的实际是不同主体在治理场域中促使不同规则发挥作用的内在机制,凸显的是村落治理主体与治理规则间的互构关系,有效的复合治理意味着治理场域内的多元主体关系和

学位

复合治理共同体治理主体治理规则治理空间

要素分析方法视角下罪过形式的认定

罪过问题历来被刑法学者所关注。罪过理论不仅是一个传统的旧议题,也是一个仍具生命力的新命题。随着人们对罪过的认识越充分、越深入,罪过理论在刑法体系中的地位就越突出、越重要。罪过形式作为定罪量刑的必要条件,自远古到如今经历了一个由朦胧到清晰,由盲目到自觉、从具体到抽象、从量刑到定罪的历史演变过程。时至今日,罪过形式对定罪量刑仍发挥着十分重要的作用。我国罪过理论由于历史原因受前苏联罪过理论影响颇深。理论

学位

要素分析方法罪过形式实用主义功能主义法定犯

我国资本市场波动率与尾部风险测度研究

资本市场的风险控制和稳定发展是我国金融管理工作者关注的重要课题。资本市场的波动率和极端尾部风险对资本市场和实体经济的破坏是巨大的,评估资本市场的风险是管理者、投资者和学者们关注的重点领域。特别是近几年,全球贸易保护主义抬头和全球新冠疫情等重大风险事件,造成了全球资本市场各类资产价格剧烈波动,频繁发生尾部风险事件,给全球资本市场和实体经济带来了巨大的冲击和损失。在这种背景下,一个有效的尾部风险测度不

学位

市场风险测度尾部风险无模型隐含波动率风险溢出风险配置

当代中国食品药品安全问题伦理研究 ——基于马克思主义伦理学视域

学位

基于多标签的特征选择算法研究

与本文相关的学术论文