【摘 要】
:
多标记学习是机器学习和数据挖掘中的研究重点之一,其目的是通过分析已有多标记数据对未知样本进行较准确的预测。在大多数多标记数据集中,描述样本的特征数存在大量冗余特征。冗余特征不仅影响分类精度,还增加了计算的复杂性。特征选择能有效解决上述问题。然而,在实际分类问题中,类不平衡的问题也是机器学习的研究难点之一。本文充分调研了相关参考文献,总结了研究现状,分析了现有方法的优缺点。在此基础上,挖掘标记对样本
论文部分内容阅读
多标记学习是机器学习和数据挖掘中的研究重点之一,其目的是通过分析已有多标记数据对未知样本进行较准确的预测。在大多数多标记数据集中,描述样本的特征数存在大量冗余特征。冗余特征不仅影响分类精度,还增加了计算的复杂性。特征选择能有效解决上述问题。然而,在实际分类问题中,类不平衡的问题也是机器学习的研究难点之一。本文充分调研了相关参考文献,总结了研究现状,分析了现有方法的优缺点。在此基础上,挖掘标记对样本可区分度对标记赋权值。并针对类不平衡问题提出了一种解决方法,本文的主要研究工作如下:(1)挖掘出标记对样本可区分度,并依据此对标记赋权值,提出了基于核函数和标记权重的多标记特征选择算法(Multi-label feature selection based on kernel function and label weighting,KF-LW)。首先分别统计贴有不同标记的样本数量。若对某个标记,贴有该标记的样本数量明显高于含有其他标记的样本数量,则表明该标记的权重越大,根据标记空间的信息对标记进行权重赋值;然后,利用核函数将原始特征空间映射到高维空间,使得特征具有可分性,最后根据信息熵度量特征与标记空间之间的相关性,并以此作为度量标准选择特征子集。(2)针对类不平衡问题,以加权核极限学习机为基础,并将其应用到多标记分类问题中,提出了基于加权的核极限学习机的多标记学习算法(Multi-label learning algorithm based on weighted kernel extreme learning machine,ML-WKELM),该算法通过计算每个样本的正例标记个数以及统计平均样本标记个数,为每个样本计算权值矩阵,分类器为少数类样本赋更大的权重,而为多数类样本赋较小权重,以此解决多标记类不平衡问题,提高分类精度。
其他文献
科技突飞猛进的发展,带来日趋严峻的能源危机及环境的极大破坏,迫切需要开发高效率、环境友好的电化学储能系统。超级电容器是一种兼备传统电容器与化学电池二者特点、弥补二
王雱是荆公学派的代表人物之一,他的《南华真经新传》是宋代庄学的重要作品。他以独特的视角剖析庄子其人其书,以还原庄子本意,但又摘除不了其家学渊源中的儒佛成分。因而在《庄子》与儒佛思想的交融中,王雱撰写了《南华真经新传》。该书究竟“新”在何处?本文从文本入手,探究王雱具体是如何阐释《庄子》,以及如何在《南华真经新传》中体现自己的诠释特色?为了探究这些问题,本文主要从四个方面来展开讨论:第一章主要考证王
钢筋混凝土梁柱节点是影响框架结构抗震性能的关键部位,目前国内外学者针对梁柱节点的抗震性能、受力机制和破坏模式等方面进行了大量系统的研究,然而这些研究主要针对无损伤
核电站环行起重机(简称核环吊)是一种位于核岛反应堆厂房内部环形轨道上的特殊桥式起重机,主要用于吊运反应堆内核电设备,并服务于核电站的建造、运行直至退役整个周期。核环
本文以LiH2PO4、Fe2O3、C6H12O6·H2O和C3H8O3为主要原料,用高温机械力化学法制备LiFePO4/C正极材料,在确定最佳碳包覆量的基础上,对LiFePO4/C分别进行阴离子F-和阳离子Mg2+
目的:研究糖尿病患者围术期血浆生长抑素(somatostatin,SST)含量及痛阈的变化。方法:收集择期腰麻下行下肢骨折手术的正常患者(非糖尿病组,NDM组)和糖尿病患者(糖尿病组,DM组)各35例。手术麻醉前(T1),术后24h(T2)分别在空腹状态下采集非输液侧肘静脉血2ml,酶联免疫法(Enzyme-linked immunosorbent assay,ELISA)测定T1、T2血浆SST
研究中西方实践思想即是在从根源性上研究中西方两种异质文化,以诠释学的视角、运用诠释学的方法进行中西方文化道统的研究即是在探寻中西方两种异质文化各自一以贯之的化成根基以及内在意蕴。这样一种追溯到文化源头上的研究有助于对本邦文化的再认识以及对于外来文化的再澄清,在跨文化研究的相关领域中具有重要价值。为此,在试窥中西实践思想的诠释学流变之后,选取了伽达默尔哲学诠释学的典型文本《作为理论与实践双重任务的诠
目的:研究Krüppel样因子4与Ki-67蛋白在胆管癌组织中的表达意义及相关性,探讨它们在胆管癌的发生与发展过程中的作用机理,为胆管癌治疗提供相关理论支持。方法:收集并整理河北医科大学第二医院2010.01.012018.12.30期间胆管癌患者完整的临床资料以及病理资料胆管癌组织蜡块标本95例;选取25例病理证实为阴性的胆管癌癌旁组织蜡块标本作为阴性对照。采用免疫组织化学(S-P法)技术检测这
近年来,智能驾驶的研究飞速发展,包括行人检测、车道线检测、交通场景识别等任务都取得了卓越的进步。然而,驾驶环境的多变容易导致感知系统遭受污染,尤其是高清摄像头的表面
多腔体钢管混凝土柱是用钢板将钢管内部的混凝土柱分割成独立的腔体,使柱的整体性能更加优越,一般在高层结构中使用。多腔体钢管混凝土巨型柱本身具备的优秀承载力特性,具有广泛的前景,因此有必要对其抗震及受力性能进行系统的研究。本文以天津高银117大厦项目中的巨型框架柱作为原型,为了研究多腔体钢管混凝土柱参数变化对其力学性能的影响,利用有限元分析软件ABAQUS建立了四组以1/25为缩尺比例的多腔体钢管混凝