面向多标记分类的主动学习算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:daihaolr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主动学习在机器学习、数据挖掘、模式识别等领域备受业内人士的关注,主要解决标记实例开销大的问题。主动学习方法首先使用少量已标记实例集学习分类器,然后根据实例选择算法从未标记数据中获取信息,最后由专家标注系统标记选取的实例并更新分类器。主动学习的核心问题是如何设计实例选择算法来选择质量和数量均佳的实例。目前主动学习的研究仍还集中在单标记分类问题上,多标记分类是数据分析中普遍存在的一个问题,多标记实例的标注通常比单标记实例的标注花费的时间更多、代价更高。在多标记分类问题中,如何更加精确地找出更适合分类的标记集合加入到属性空间中,这是提升多标记分类算法性能的关键。另外,已有的实例选择算法考虑噪声数据的情况较少,而且其选择策略比较单一。针对上述问题,本文从实例选择算法和多标记属性选择这两个方面展开了研究,本文贡献如下:(1)针对实例信息度量方式比较困难的问题,提出了一种基于不确定性采样的主动学习算法。首先,本文使用多个二分类的支持向量机分类器,将多标记实例的正负标记分离,正负标记值之间的距离称为分离裕度。实例选择算法将分类结果中分离裕度的值最小的实例视为不确定性高、信息丰富的实例。这里本文提出基于偏值项的分离裕度的主动学习算法,在选择实例时,使用偏置项作为衡量分离裕度的因素,选取分离裕度的值趋向于偏置项大小且非噪声的实例。其次,在此基础上,该算法使用标准差的方式度量实例的离散度情况,选取高离散度的实例。最后,通过多个多标记数据集上的实验结果证明了该算法的有效性。(2)针对分类器出现分类错误的情况下实例选择算法极有可能误选实例以及考虑标记间相关性的问题,提出了一种基于最大相关性的多标记主动学习算法。首先,使用实例与标记值之间的相关性来度量实例的不确定性,并将其与已有的最小置信度策略结合使用。其次,该算法采用改进的两层多标记模型,选择基分类器分类结果中高于阈值的标记值扩展属性空间。最后,将改进的两层多标记模型与实例选择算法综合使用,提升最终分类器的性能。同样,通过多个多标记数据集上的实验结果证明了该算法的有效性。
其他文献
[主持人的话]本期刊发两篇文章。《萧统与〈文选〉研究三题》一文认为,萧统在《文选》编纂过程中起到关键的、核心的作用,但学界目前对这一事实认识不够充分,因此,有进一步讨
为解决现有管路刻线技术过程操作繁琐、焊装精度不易保证、生产效率低的问题,提出一种基于数控弯管仿真的管路自动化刻线技术。采用基于PROE二次开发技术,通过对管路组件3维
目的:肺血栓栓塞症(pulmonary thromboembolism,PTE)为一种潜在的致命性疾病,许多患者至死后尸检才得以明确诊断。本文通过了解PTE尸检临床及病理特点,以提高对PTE的认识。方
改革开放以来,我们在经济、政治、文化及社会风气等方面都发生了较大的变化,十一届三中全会犹如一阵和煦的春风,给中国的发展带来了新的希望和憧憬,可谓是世界万物皆"囊为己
储能系统具有响应迅速、跟踪精确的特点,将其应用于区域电网的一次调频时,可以有效改善区域电网暂态频率特性。为了实现储能系统与区域电网中常规机组一次调频的配合,基于区
临沂市红色旅游资源丰富,开发利用好红色旅游资源,把现有的资源优势转化为经济优势和产业优势,既是弘扬民族精神、推进社会主义精神文明建设的需要,也是策应中央发展红色旅游
水力压裂技术的提高是保障页岩气高效环保开发的重要途径.本文概述了中美页岩气藏在工程地质、作业环境和技术需求方面的差异.分析表明,中国页岩气藏埋深普遍偏大、闭合压力
微孢子虫是一类专性细胞内寄生的单细胞真核生物,寄主广泛,能感染几乎所有无脊椎动物和脊椎动物,乃至人类。家蚕微粒子虫是最早被鉴定的微孢子虫之一;作为家蚕最主要的病害,它对世界蚕丝行业造成了巨大的经济损失。因此,检测与防控家蚕微粒子虫对蚕业生产具有重要意义。微孢子虫具有一个非常特殊的极管构造,它是微孢子虫特有的侵染结构,由多种极管蛋白组成;极管不溶于SDS、1%Triton X-100、1-10%H_
日前,浙江省水文地质工程地质大队(以下简称'浙江水文队')凭借过硬的技术、精干的团队、完整的'地质调查-岩土勘察-地基处理'产业链优势,为丽水市缙云县最大
民国初期,山西因实行村治而成为全国的“模范省”。作为山西村治运动中官治与民治的衔接环节,村禁约制度承担了训练民治、保全礼俗、普及法律的任务,其将自治思想与传统乡约