基于流形学习和稀疏回归的多标签特征选择

来源 :上海大学 | 被引量 : 0次 | 上传用户:wuan461618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类、图像标注、生物信息学等领域,数据对象往往呈现出多语义性的特点,传统的单标签学习框架不再适用。多标签学习认为每个数据样本可以同时含有多个类别标签,因此可以用来处理多语义性数据。多标签数据通常具有较高的维数,大量冗余特征的存在不仅会增大多标签学习算法的计算开销,而且会影响分类器的性能。特征选择是对高维数据进行维数约简的有效手段。稀疏特征选择对回归模型的回归系数矩阵添加稀疏正则项,通过对该矩阵的系数分析完成特征选择,具有比传统特征加权方法更好的性能。但是,该类方法在回归模型中所假设的数据与标签之间的线性关系通常并不成立。一些多标签特征选择算法在稀疏回归模型中引入流形学习思想,将数据映射到其低维流形,使得最终选择的特征能反映数据的本征结构。但是,如何构建低维流形,以及如何对该流形结构进行约束更有利于分类仍然有待深入研究。论文针对多标签特征选择问题,基于流形学习和稀疏回归模型展开研究,对流形的构建和约束方式进行探讨,主要研究内容如下:(1)综述多标签特征选择的研究现状以及多标签学习的相关理论和方法,对稀疏回归模型和流形学习进行详细论述,并着重介绍与之相关的多标签特征选择算法。(2)提出一种基于图拉普拉斯的多标签类属特征选择算法(multi-label labelspecific feature selection based on graph Laplacian,LSGL)。LSGL基于数据在每个类别标签上的分布信息构建邻接矩阵,利用拉普拉斯映射方法获得数据在每个标签上的低维流形,然后将低维流形引入包含稀疏正则项的回归模型。最后,通过优化求得回归系数矩阵,并利用该矩阵对特征进行评分,得到每个标签对应的类属特征。实验表明,LSGL得到的类属特征子集能有效提升分类器的性能。(3)提出一种基于流形正则化和依赖最大化的多标签特征选择算法(multilabel feature selection via manifold regularization and dependence maximization,MRDM)。MRDM利用谱回归思想将数据映射到低维流形空间,并对该空间添加结构约束和依赖约束,使其不仅具有与数据空间相似的结构信息,而且与标签空间之间有着很强的依赖性。方法将两个约束项加入稀疏回归模型,通过对目标函数迭代优化求解得到回归系数矩阵,获取特征子集。实验表明,MRDM的性能优于多种多标签特征选择算法。
其他文献
目的:通过临床随机对照试验研究,评价大黄(庶虫)虫丸加减联合桂枝茯苓膏治疗慢性特应性皮炎(AD)的近期临床疗效以及本治疗方案安全性,为特应性皮炎患者提供一种缓解慢性期干燥,苔藓样变和瘙痒便捷效廉的纯中医中药治疗手段。方法:本研究采用前瞻性随机对照研究,收集了 2020年7月至2021年1月就诊于广东省中医院皮肤科门诊的特应性皮炎患者,年龄在10岁至60岁,男女不限,符合纳入标准和排除标准。研究纳入
目的:本研究旨在调查应急志愿者的心理韧性现状,探索应急志愿者心理韧性的影响因素,为采取针对性的干预措施及实施有效的心理培训,提高应急志愿者的心理韧性水平,改善其心理健康状况提供参考依据。方法:本研究采用质性研究与量性研究相结合的方法,将质性研究结果作为量性研究的基础。质性研究采用目的抽样法,对14例应急志愿者进行半结构式访谈,通过Colaizzi七步分析法对访谈资料进行分析,提炼出应急志愿者心理韧
背景:乳腺肿瘤是一种恶性肿瘤,目前位于女性肿瘤疾病发病率的第一位,给女性的身体健康和生活治疗带来极大伤害。手术治疗是乳腺癌患者的主要治疗方式,化疗药物治疗是其一般治疗方式,但其长期使用会致使机体产生耐药,并且副作用大,影响的乳腺癌患者的生存质量。因此寻找安全有成效、副作用低的抗肿瘤药物对于乳腺癌的治疗具有重要意义。中医药的在肿瘤疾病的治疗中,显现出多靶点、人体生物利用度较好、副作用小等众多优势,中
水肥管理是果树种植过程中的重要环节,对于提高果实产量和果实品质十分重要。近年来,设施草莓栽培在新疆阿克苏地区兴起。设施草莓栽培具有周期短、效益益高、易于管理等特点。大力推广设施草莓的栽培与生产,一方面丰富了人们物质生活,另一方面有助于帮助果农提高收入。由于农业生产具有很强的地域性,筛选出适宜新疆阿克苏地区草莓栽培的高钾水溶肥浓度,对优质草莓的施肥技术在新疆地区的推广具有重要意义。本试验以‘妙香3号
目的:本课题为临床试验对照研究,观察俞募配穴针灸对多囊卵巢综合征(PCOS)患者内脏脂肪的临床疗效,旨在探究俞募配穴针灸控制PCOS患者内脏脂肪的情况,为治疗PCOS提供简便、快捷且疗效良好的治疗手段,并为今后研究PCOS提供临床依据。方法:研究对象选取2020年6月至2020年12月广东省中医院大院传统疗法科门诊就诊患者及招募的志愿者44例,符合西医纳入的诊断标准,采用临床随机对照研究方法,设立
目的:通过静息态功能磁共振成像技术,研究静息状态下首发轻中度抑郁症患者双侧杏仁核和岛叶功能连接的异常改变。方法:选取16例首发轻中度抑郁症患者(抑郁症组)和16名健康对照者(对照组)进行静息态功能磁共振(resting-state functional magnetic resonance imaging,rs-fMRI)扫描,对rs-fMRI数据进行常规预处理,选取双侧杏仁核及双侧岛叶4个种子点
目的:根据联合国的统计,到2050年,中国65岁以上的老年人将占总人口的四分之一。在老年人中,血管性痴呆(vascular dementia,VaD)是导致痴呆的主要原因之一,尤以亚洲国家多见,这可能与亚洲国家的脑血管病发病率较欧美国家更高一致[1]。近年来,由于脑血管病的不断增长,人们对于VD的研究越来越重视。目前,VD尚无有效治疗手段,但其被认为是可以有效防治的一种痴呆综合征,而这种可防治主要
碳材料中掺入杂原子不仅可以提高电导率,而且可以提高润湿性,这有利于电解质与电极之间的接触。此外,活化是调节碳质材料孔隙结构的非常重要的手段,本文分别以生物质废料榴莲壳和间苯二酚为碳源,以(NH4)2HPO4为掺杂剂制备了氮氧磷共掺杂多孔碳材料。以生物质废料榴莲壳衍生的水热碳为前驱体,经过(NH4)2HPO4不同质量比掺杂高温800℃处理2小时,成功制备了氮氧磷共掺杂的活性碳。通过对材料比表面、红外
现有的异常用电检测方法存在未考虑电力用户的位置信息、模型参数选取困难的问题。据此,提出了一种基于线性判别分析(LDA)和密度峰值(DPeaks)聚类的双判据无监督异常用电检测模型。该模型遵循“特征构造-维度规约-聚类-异常检测”的流程,借助聚类算法将用电模式类别不同的用户分类后再检测,在维度规约模块使用线性判别分析将用户的台区号输入检测模型,提升了模型的检出率和精确率;在异常检测模块设置双判据检测
随着科学技术的发展,机器人在工业、服务业及娱乐业有了广泛应用,投篮机器人是机器人竞赛中的重要项目,涉及到机器人研究的许多热点问题。本文以投篮机器人为实验平台,主要研究了四个问题:投篮机器人的硬件平台搭建、机器人的自定位算法、目标球体识别算法以及目标球体跟踪算法。首先基于投篮机器人竞赛规则搭建了机器人硬件平台并对机器人底盘进行运动学分析。对投篮机器人进行功能模块划分,采用麦克纳姆轮四轮O-长方形结构