弱标记特征选择算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yedayong0007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习作为当前机器学习研究的热点已经在多媒体内容自动标注,生物信息学,信息检索等领域得到广泛应用。然而随着互联网信息时代的到来,大量高维度的数据产生,多标记学习遭遇“维数灾难”问题。样本中的特征过于冗余,使得模型学习参数较多,容易陷入过拟合风险,从而降低了多标记分类的精度。特征选择是一种有效缓解此类问题的重要方法,它通过一定的策略从给定的特征集合中选择出任务相关的特征子集。选择的特征子集维度往往远小于原始特征的维度,并且能降低学习任务的难度,提高学习器的性能。传统的监督式多标记特征选择算法一般假设样本的标注信息完整且有标记样本充足,进而利用特征与标记之间的相关性来选择特征。然而,在现实生活中,我们获得的大量样本数据中只有很少一部分样本是有完整(或部分)标记的。在此情境下,监督式多标记特征选择算法往往只利用少量标记完整的样本数据,而忽略了大量的标记不完整(或未标注)数据。无监督特征选择算法直接在数据的特征空间选择相关特征子集而忽略了标记与特征之间的关系。为了有效利用样本数据标记信息来选择特征,我们提出了以下两种基于弱标记的多标记特征选择算法。(1)基于稀疏正则化和依赖最大化的半监督特征选择算法(Semi-Supervised Multi-Label Feature Selection based on Sparsity Regularization and Dependence Maximization,FSSRDM)。该算法适用于样本空间中只有少量样本有完整标记,而大量样本无标记的场景。FSSRDM将缺失标记预测与特征选择过程融为一体,首先使用最小二乘模型来评估标记与特征关系并以此来预测未标记样本的标记;其次,利用Hilbert-Schmidt Independence Criterion(HSIC)来刻画特征空间与标记空间的依赖性并最大化这种依赖关系;然后利用L-2,1稀疏正则化项来获得最小二乘回归系数矩阵;最后通过稀疏化的系数矩阵来选取相关特征子集。与经典的监督式特征选择算法以及半监督特征选择算法相比,我们的算法可以有效地选择出相关的特征子集,提升多标记分类的性能。(2)基于标记空间降维的弱监督特征选择算法(Weakly-supervised feature selection based on label space reduction,WSFSLR)。该算法适用于原始数据中每个样本的标记都有不同程度缺失的情境。为了减少样本标记空间大和缺失标记过于稀疏带来的负面影响,WSFSLR首先利用非负矩阵分解方法对原始标记空间进行分解得到一个低维的标记空间;然后在低维标记空间中利用最小二乘模型评估标记与特征关系;进而利用图拉普拉斯矩阵来保证邻近样本有相似的输出;最后通过L-2,1稀疏正则化项获得稀疏化的系数矩阵来选取特征。实验中我们在标记空间较大的数据集上的实验结果表明,本文方法比现有的半监督特征选择方法、监督特征选择方法以及弱监督特征选择方法作对比,均能有效降低数据集的维度,并提升多标记分类的精度。
其他文献
在不可再生能源不断消耗的大背景下,探索可替代的再生清洁能源成为能源发展的必经之路。油脂是一类重要的可再生资源,能够通过多种方法转化为适宜碳链长度的生物基燃料油。催化裂化法是制备生物基燃料油研究的主要方向,该方法将油脂在催化剂的作用下经过高温反应,转化为更有经济价值的烃类物质。本文以氧化钙为主要研究对象,首先探索其催化裂化小桐子油制备生物基燃料油的最优工艺条件,然后通过氧化钙负载硝酸铝解决其成型问题
近年来,随着网络技术的进步,互联网的发展以及网络用户数量的增加,网络数据量呈现指数级增长。虽然大量的数据是有价值的,并且其中大部分数据是文本文档,但是,除非以适当的方式组织这些文本信息,否则用户根据其需要选择有意义的文本信息将成为一个新的问题。处理该问题的一个方式是设计处理自动化的文本分类系统,这个过程被称为文本分类(TC)。文本分类通常需要在线组织和管理大量可用的文本文档。文本分类的目标是首先从
目的:研究香薷清暑化湿口服液的质量标准,为申报中药新药提供实验依据。方法:(1)采用薄层色谱鉴别方法对香薷清暑化湿口服液中香薷、葛根、蚕沙、厚朴、陈皮进行鉴别研究,建
结构设计广泛存在于生活中的各个方面,是生产、生活的重要组成部分。传统的结构设计方法利用有限元分析、可靠性分析和经验估算等方法对设计方案进行优化和改进,设计的目的是
超连续谱(Supercontinuum,SC)具有亮度高、频谱宽、相干性好等优良特性,在生物医学、光通信网络、气象探测等诸多领域有广泛的应用前景。光频梳(Optical Frequency Comb,OFC)是由一系列相位相干、间隔均匀的频率分量组成的光谱,由于它的高稳定性在天文、光测量、通信等领域应用广泛。单偏振SC也引起了人们的广泛关注,作为实现单偏振SC的重要介质,保偏光子晶体光纤(Pola
支持向量机(SVM)是一种传统的监督学习算法,可以用于分类、回归和分布预测,被广泛应用于各种数据分析的实际问题。其中,LIBSVM是应用最为广泛的SVM算法包,它被许多机器学习框架作为底层的SVM算法实现。然而,在大而复杂的问题上,SVM的训练和预测的计算代价很高。LIBSVM针对早期的单核CPU进行了优化,只提供了有限的并行化支持,但随着数据量和问题规模急剧增加,LIBSVM的训练和预测速度往往
目的:探讨朝医方麻黄定痛汤对动脉粥样硬化(AS)模型大鼠血管内皮结构破坏和氧化应激反应的抑制作用,明确本方对引起AS的危险因素、相关血管活性物质和代谢产物具有调控作用,阐明朝医方麻黄定痛汤具有抑制AS发生的机制。方法:将42只清洁级SD雄性大鼠,分正常组7只和AS模型组35只。正常组喂养正常饲料10周,AS模型组造模时一次性腹腔注射维生素D3 60万IU/kg,并造模开始后在第4周和第8周时追加注
生态文明作为人类社会一种新型的文明形态,在马克思主义理论体系的建构中占据着特殊的地位。本文主要基于对马克思生态文明观实践反思和现实关怀的阐述,探讨其基本蕴涵、当代
在电磁波频谱中,毫米波与亚毫米波频段具有很大的研究价值,也是近几年比较新兴的研究领域。随着准光技术的不断发展,国内外提出了许多针对准光系统的研究方法,这些方法使得准光系统及其各部分器件的仿真及加工越来越广泛。由于常用的准光系统分析方法譬如商用软件GRASP所使用的P0(物理光学法)和GO(几何光学法),针对已知系统参数来进行建模并分析,在计算速度上或多或少有所欠缺。而本实验室在过去几年采用的准光系
深度学习的理念意在引领学习者批判性地学习新的思想和事实,使新旧知识产生联结,并将已有知识迁移到新的情境中,实现学习者知识体系的自主建构,提升学习者解决问题的能力。《普通高中化学课程标准(2017年版)》重视“素养为本”的教与学,注重发展学生的化学学科素养,深度学习理念与新课程标准的制定理念相吻合,课程教学应当始终围绕变“被动学习”为“主动学习”、变“浅层学习”为“深度学习”开展实践研究。化学学科作