基于稀疏学习的多标签特征选择算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:woshigezuiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今我们正处在大数据时代,海量高维数据广泛分布于人类生活中各个领域。同时,这些数据往往具有较为丰富的语义信息。多标签学习框架就是解决这些多义现象。在框架中,每个数据对象由一个示例(特征向量)描述,该示例可以属于多个类别。当机器学习与数据挖掘技术应用到高维的多标签数据时,一个重要问题是维度灾难。因此,多标签特征选择技术应运而生。在过去几年里,多标签特征选择吸引了众多研究者的关注,并逐渐涌现出一些优秀的算法。然而,它们仍存在一些问题难以解决:(1)为了选择特征,现有的特征选择算法通常采用这两种策略之一:为所有标签选择一个共同的特征子集,该子集中的特征对所有标签都具有识别力(共有特征),或者为每个标签分别选择对它们自己有识别力的特征(类属特征),然而这些重要特征在标签识别过程中均扮演着重要角色,它们对所选择特征的识别能力很重要;(2)在特征选择中探索和利用标签相关性被认为是提升算法性能的一个重要的思路,尽管现有的算法均取得不错效果,然而有必要探索新的方法近一步提升算法性能。此外,现有多标签特征选择算法往往利用标签全局相关性。然而标签相关性通常是局部性的,且被数据集的局部区域所共享;(3)现有的多标签特征算法通常基于数据的原始标签信息进行建模,然而这些标签信息无法充分表达对象的丰富语义,一方面,由于示例的相关标签对其描述度通常不同,因而相关标签对该示例而言重要度不同。另一方面,标签重要度无法由数据标注者直接提供。基于以上观察,本文设计并实现了如下两种高效的特征选择算法解决如上问题。l针对问题(1)与(2)。本文提出一种新颖的基于局部标签相关性的共有和类属特征选择框架。该框架能够同时筛选共有和类属特征,自动学习和有效利用局部标签相关性帮助选择特征。具体地,为了同时选择两类特征,我们同时引入l2,1和l1稀疏正则项,它能够使得模型能根据数据集的特点灵活选择共有和类属特征。同时,我们利用概率自动学习局部标签相关性,并且我们将学习到的局部标签相关性去限制标签的输出,使得所选择特征得以优化。在九个多标签基准数据集之上对比九个最为先进的特征选择算法验证了所提出框架的有效性。l第二,针对问题(3),本文从一个新颖的角度,设计了一种基于标签重要度挖掘的多标签特征选择算法。该算法能够挖掘多标签数据信息中潜在的标签重要度,并且利用其有效引导选择过程。为了挖掘标签重要度,我们首先学习特征空间的流形。基于平滑假设,我们将特征空间中的信息迁移到标签空间,以生成数值标签描述标签重要度。大量实验表明,基于标签重要度挖掘的多标签特征选择算法可有效提升模型的泛化性能。
其他文献
本文通过研究弘仁山水置陈布势为线索,就其形成的历史因素和人文因素,探讨弘仁山水置陈布势的现实意义及对自身绘画的启发,从弘仁山水如何置陈出发,通过他对自然实地的取景加以主观处理进行分析,探讨如何形成弘仁独有的几何化、空间平面化的山水气象。弘仁即是新安画派领袖人物也是提倡新潮的先锋,他也是第一个以描绘黄山而成功的画家,他的绘画理念“敢言天地是吾师”更是当时画坛的模范,师法自然成为一种潮流。因此,弘仁山
根据摩尔定律的指导,集成电路特征尺寸不断减小,近几年晶体管栅长已达到纳米量级,在此量级下小尺寸效应变得越来越严重,短沟道效应、栅极隧穿效应、多晶硅栅耗尽效应与漏极诱生势垒降低效应等成为限制摩尔定律延续最大的阻碍。为克服纳米量级下的小尺寸效应,科研人员广为研究基于量子隧穿原理的TFET,TFET理论上可以突破热电势的限制,在室温下获得低于60mV/dec的亚阈值摆幅,极高的电流开关比,以上优势使TF
词汇识别是阅读的基础,词频和词长是词汇识别的重要影响因素。无论是外文还是中文阅读中研究者们都发现了显著的词频效应和词长效应。走神是影响阅读的一个重要因素,在走神状态下阅读的词频效应和词长效应又会发生哪些变化,国外学者已经对拼音文字阅读中走神的词频效应进行了初步研究,但还缺乏对走神状态下的词长效应的研究。与拼音文字相比,汉语有自身的独特性,词汇长度也是重要的词汇视觉特征。本研究采用眼动追踪技术,通过
随着中国加入世界贸易组织和世界贸易的全球化,中国与其他国家的经济交往越来越多。在此过程中,作为规范商业活动的法律合同的双语翻译起着十分重要的作用。然而,在法律合同
随着全球化的步伐不断加快,各个国家在政治、经济、文化等领域的合作也不断加深。这就要求我们必须对西方国家的法律体系也有所了解,而法律文本翻译是了解西方国家法律体系历
教科书作为教师教学和学生学习的重要资源和工具,其功能与价值的发挥很大程度上取决于教师和学生对教科书的实际使用水平。2016年9月统编版初中语文教科书在全国各地投入使用
肝细胞癌(HCC)是最常见的肝脏恶性肿瘤,约占原发性肝癌的85%,是全球与癌症死亡相关的第六大常见肿瘤。据统计,每年新增病例约84.1万人,其中我国每年的发病率约占世界总数的一半。肝细胞癌的发生是多种因素共同作用的结果。因此,探讨肝细胞癌发生发展过程中复杂的生物学机制有重大意义,以期能为肝细胞癌的诊治提供新的理论依据和实验数据。TIGIT是近年来新发现的一种负性共刺激分子,在参与诱导T细胞免疫耐受
走神(mind wandering,MW)是人类常见的一种意识体验,是意识的重要一环。走神时,意识内容转向来自于长时记忆储存系统中的内部思想流,与当前外部知觉信息处于解离状态。纵观以往研究,关于这种解离的状态,早期研究者大多认为是“全或无”的,即人们要么专注于当前任务,要么处于走神状态。随着走神研究的不断深入,近年来越来越多的研究者开始采用连续的观点来看待这种解离状态,即认为走神是分程度的,走神过
近年来互联网日益蓬勃地发展,随着社会信息化不断地普及,全球数据量以惊人的速度逐年增长。信息过载导致人们难以在庞大的数据资源中寻到得到自己真正需要的信息。推荐系统的
宗族,作为中国传统社会的基本单元,是以血缘关系和地缘关系为基础的社会纽带,它通过宗族认同和宗族活动等方式把一个宗族的成员牢牢地凝聚在一起。宗族也是各界学者研究中国传统社会的一个切入点。新中国成立后,宗族现象看似已经消失,但实际上依然存在于村落社会的许多层面。本文以云南省建水县铁所村为个案,对李氏宗族、赵氏宗族、姚氏宗族和王氏宗族等进行了为期6个月的田野调查,访谈了20余户人家,从家谱、祠堂、族长、