【摘 要】
:
随着信息化和机械化设备的普及以及计算机存储能力的提升,越来越多的高维特征数据得以保存。这些高维数据在为多领域应用提供海量信息的同时,也造成了维度灾难问题。另外,高维多标签数据是当前机器学习领域的研究热点之一,多标签数据是指一个样本同时与多个语义相关联,它广泛应用在文本、音频、基因等领域。本文利用特征选择技术对高维多标签数据进行降维并分类。特征选择技术不仅可以抽取高维特征中的关键特征用来训练分类器并
【基金项目】
:
吉林省科技发展计划项目(20190201180JC、20200401076GX)
论文部分内容阅读
随着信息化和机械化设备的普及以及计算机存储能力的提升,越来越多的高维特征数据得以保存。这些高维数据在为多领域应用提供海量信息的同时,也造成了维度灾难问题。另外,高维多标签数据是当前机器学习领域的研究热点之一,多标签数据是指一个样本同时与多个语义相关联,它广泛应用在文本、音频、基因等领域。本文利用特征选择技术对高维多标签数据进行降维并分类。特征选择技术不仅可以抽取高维特征中的关键特征用来训练分类器并建模,还可以帮助研究者更好的理解模型,并提高模型执行效率。因此,大量多标签特征选择技术被提出。一般特征选择算法被分为三类:封装式算法,过滤式算法和嵌入式算法。封装式算法利用分类器的准确率作为度量候选特征子集优劣的标准,直到选择最优候选特征子集;过滤式算法是指特征选择过程与后续分类器无关,它常结合信息论等度量手段设计目标函数;嵌入式算法将目标函数与特征选择过程结合,可以提高执行效率。本文拟从有监督学习出发,针对嵌入式方法和过滤式方法展开研究。本文综合分析存在的稀疏化算法的优劣,提出两种新的多标签特征选择算法:基于双图正则化的鲁棒多标签特征选择算法(DRMFS)和基于动态子空间的多标签特征选择算法(DSMFS)。而后根据基于互信息的过滤式特征选择算法的局限性提出优化方法,设计了一个新的特征选择方法:基于交互信息特征冗余度的多标签特征选择算法(FRM)。本文的主要贡献可以概括为如下四个方面:1.提出一种基于双图正则化的多标签特征选择算法(Robust Multi-label Feature Selection based on Dual-graph,DRMFS)。DRMFS算法只有一个未知变量,因此根据目标函数提出优化乘法梯度下降算法,可以得到全局最优解,同时证明了该梯度下降算法的收敛性。2.进一步根据已有算法(DRMFS)将拉普拉斯矩阵固定的局限性,本文提出一种基于动态子空间的多标签特征选择算法(Dynamic subspace dual-graph regularized Multi-label Feature Selection,DSMFS)。该算法构建了一个动态拉普拉斯矩阵,并在12个数据集上与7个先进算法进行了比较,实验结果证明了DSMFS的优越性。3.提出一种基于交互信息特征冗余度的多标签特征选择算法(Feature Redundancy Maximization,FRM),该算法将条件互信息的累加和与最大最小值准则相结合,克服了传统基于信息论的过滤式特征选择算法的局限性,在14个数据集上与6个算法进行比较,实验证明了FRM的优越性。
其他文献
建立一种快速准确高效的方法同时检测特殊医学配方食品中泛酸、烟酰胺和左旋肉碱的含量。试样中的左旋肉碱、烟酰胺和泛酸,经盐酸溶液超声溶解后,酸碱沉淀杂质,经Agilent Eclipse XDB-phenyl柱分离,以甲醇和0.1%甲酸溶液为流动相,梯度洗脱,流速为0.4 m L/min,柱温40℃,采用液相色谱-质谱法检测。结果表明,泛酸在0.2~1.5 g/m L,烟酰胺在0.08~0.5 g/m
随着社会生态形势的变化和国家出台各项生态保护、环境政策,将林业生态保护与天然林保护工作提到了不可忽视的地位。甘肃省小陇山林业生态保护与天然林受到了省内的高度重视和关注,分析和论述了小陇山林业实验局天然林生态保护工程的森林资源增加量、林业保护的具体措施和生物多样性保护及水土保持和涵养等多个细节角度。探讨了甘肃省小陇山林业和天然林实施工程概况、当今国内林业生态质量和天然林保护现状、林业生态保护与天然林
基于“扎根理论”的资料分析,目前高校课程思政育人的困境:教师对课程思政理念存在认知偏差;各类课程思政目标差异显著;课程思政协同育人乏力和其效果评价体系匮乏。基于此,文章从“扎根理论”分析结果出发,提出高校课程思政协同育人策略:提升教师课程思政价值认同;塑造专业课程思政教育目标;开发专业课程思政教育内容;构建课程思政育人体系。
目的:观察重组人表皮生长因子凝胶联合CO2点阵激光治疗烧伤及创伤后增生性皮肤瘢痕的临床效果与治疗安全性方法:根据随机数字表将所有患者分为单纯点阵激光治疗组和联合治疗各10例。联合治疗组使用CO2点阵激光治疗增生性瘢痕后术区外用重组人表皮生长因子凝胶治疗;单纯激光组使用CO2点阵激光治疗增生性瘢痕后术区不加用药物。两个月治疗一次,两次为一个疗程,记录一个疗程。每次治疗效果数据收集的时间点为下一次激光
<正>你想改写自己的人生脚本吗?如果有一支情绪温度计,“非常好”是10分,“非常差”是1分,你给自己打几分?蛤蟆先生打了1~2分,因为他觉得整个人都不好,甚至糟糕。爱冒险、喜欢耍酷的蛤蟆先生,是《蛤蟆先生去看心理医生》一书中的主角。蛤蟆先生一向是大家的开心果,他拥有一座从父辈那里继承来的大庄园,但没人会料到,一向大大咧咧的他会得抑郁症。他在朋友的建议下去看了心理医生,咨询过程中,他回溯了自己的童年
目的:探讨分析强脉冲光联合硫酸羟氯喹治疗玫瑰痤疮疗效观察及对生活质量的影响。方法:按随机数字表法将2020年7月-2021年5月六安市中医院收治的89例玫瑰痤疮患者分入对照组(45例)与治疗组(44例)。对照组采用硫酸羟氯喹片+盐酸米诺环素胶囊+医用冷敷贴治疗;治疗组在对照组基础上联合强脉冲光治疗。对比两组治疗前后症状积分和生活质量评分、临床疗效以及不良反应。结果:相比对照组,治疗组总有效率更高(
<正>"其实特别不愿意回忆这件事,太痛苦了。6年来,四任法官,数十次开庭谈话,来一次法院,心里的伤疱就撕开一次,血流不止。"韩某说完,陷入了短暂的沉默。外人看来,韩某斯文帅气,顶尖大学硕士毕业,有着很好的工作,有漂亮的妻子,可爱的孩子,着实令人羡慕,但谁又知道他的内心深处埋藏着一个如此令人心痛的故事。韩某说,他出生的家庭并不
机器翻译是人工智能和自然语言处理研究中的一个重要研究领域,其目标是通过模型将源语言的语句自动转换为目标语言的语句,且保证二者具有相同的语义信息。近年来,神经机器翻译模型成为了该任务的主流模型。该模型基于序列到序列的框架,通过编码器将源语言的语句编码为固定维度的隐藏状态向量,之后解码器依据给定的源语句隐藏状态按照自回归的方式从左至右逐字地生成目标语句。神经机器翻译模型在多种翻译任务上都取得了巨大的成
目的 基于氧化应激介导的内皮间充质转化(EndMT)探讨槟榔碱(Arecoline)诱导人脐静脉内皮细胞(HUVECs)损伤的作用机制研究。方法 采用槟榔碱干预复制HUVECs损伤模型。实验设对照组、槟榔碱高剂量组和槟榔碱低剂量组。采用CCK-8检测不同浓度槟榔碱对HUVECs存活率的影响,细胞成像分析检测HUVECs形态学变化,采用MitoSOX探针检测线粒体活性氧(ROS)水平,采用免疫荧光及
<正>2020年9月,中共中央办公厅、国务院办公厅印发《关于加快推进媒体深度融合发展的意见》(以下简称《意见》)。那么,什么是深度的媒体融合形态?这需要从全媒体传播生态层面进行分析与理解。结合互联网发展加速重构媒体格局的新形势,从系统论视角审视,全媒体传播体系应当由新型主流媒体/网络平台、数据/内容、传播者/服务者、用户/群众等要素构成。与此前相比,传播系统的基本要素没有太多改变,但是重心及要素之