融合半监督学习的主动学习技术

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhoumi2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习方法研究计算机系统如何通过自动化学习的过程来提升系统性能的算法。对于很多机器学习问题,例如高光谱遥感图像分类、搜索引擎的排序学习、语音识别等,学习模型的泛化性能依赖于有标记样本。但是对于这些问题来说,可获取的有标记样本的数量相对问题的规模来说往往不足,又或者获取样本的代价较高。如何依据有限的有标记样本集来训练足够好的学习模型是机器学习领域一个热点的研究问题。   主动学习(Active Learning)和半监督学习(Semi-supervised Learning)方法是解决这一问题的两种思路。主动学习研究训练样本的选择方法,以尽可能少的标记样本,得到尽可能好的泛化能力。半监督学习研究结合有标记样本和无标记样本的训练和学习模型,建立有标记样本和无标记样本的联系,来得到更好的泛化能力。在实际问题中,研究者发现半监督学习可以作为主动学习的一种补充技术,并试图把这两种方法结合起来使用。我们把融合半监督学习的主动学习方法的分为两类。第一类算法中,半监督学习主要用作为主动学习方法的一种采样技术。本文把这一类方法称为Active Learning withSemi-Supervised Heuristic,ALSSH。第二类方法中,半监督学习方法被当作一种伪标记技术,配合主动学习一起来对未标记样本进行标记。本文把这一类方法称为Collaborative Active and Semi-Supervised Labeling, CASSL。   在CASSL类型的算法中,学习模型并不能保证产生完全正确的标记。在迭代采样的初始阶段,算法可以学习到的模型的准确性是有限的,需要针对特定问题设定伪标记样本的选择规则,以弥补这一不足。如果加入错误的伪标记样本,可能会影响随后的模型学习和训练过程,造成性能的下降,及时的清除错误的伪标记样本非常必要。我们提出基于协同验证的融合半监督学习的主动学习标记方法。我们把这一方法称为Ensured Collaborative Active andSemi-Supervised Labeling,ECASSL。ECASSL以SVM作为基本的学习模型,边缘样本采样(Margin Sampling)作为基本的采样方法。每轮迭代,我们利用新的学习模型验证伪标记样本,根据验证结果,修正或者清除这些伪标记样本。实验结果表明,ECASSL算法有效提高了学习和标注性能。
其他文献
现代卫星远程教育是我国非常重视的长期发展战略。我国幅员辽阔,地区差异大,教育发展不平衡。以内蒙古的情况为例,农牧区的教学资源、教学手段和信息化程度,与城市相比存在巨
伴随着信息技术的飞速发展,信息技术进入到了云时代,随之而来的是大数据的发展与应用,因此,大数据分析技术的研究价值越来越大,其在信息技术应用中的地位也更为重要。序列数据是一
当前,烟草行业物流信息化建设正在深入推进之中。加快物流信息化进程,对于整合行业物流资源、提升现代物流运行水平具有重要的作用。各卷烟工业企业转变物流发展观念,引入现代物
复杂网络成为近年来很多领域科学家研究的热点,对复杂网络的研究蕴藏着巨大的潜在应用价值,然而复杂网络所表现出的脆弱性,成为其在实际应用中的一大缺陷,尤其是在面对随机攻
随着微电子及网络技术的发展,无线传感器网络(WSN)的广阔应用前景日益获得国内外学术界的广泛关注。无线传感器节点(SN)以其低成本,低功率,分布式,多功能的特点得到广泛应用,但这
高速高精度数模转换器是无线通信、音视频信号处理、图像信号处理等系统的关键器件,也是制约我国无线通信,医疗仪器等民用系统和雷达等军用系统的瓶颈,在高新信息产业中有着极高
Ad Hoc网络是一种无中心的分布式网络。它具有不依赖基础设施支持、动态自组织和快速展开等优点,这些优点引起了人们的广泛关注。近年来,研究Ad Hoc网络的人越来越多,大量的
可穿戴传感网络是目前信息科学和计算机领域研究的一个新的热点问题,它是将多个传感器节点放置在人体等目标载体不同位置从而实时监测、追踪载体信息的一种新型无线网络,本文研
互联网的成功引领人类进入了信息化社会,深刻地改变了人们的生活方式。随着互联网规模的不断扩大和网络应用需求的日益多样化,传统互联网暴露出了网络体系结构僵化、可扩展性
随着“互联网+”的不断发展,气象信息服务的传播方式更加便捷,服务形式也更加多元,对气象服务在我国航天领域的应用推动巨大,因此,气象部门须跟随现阶段“互联网+”的发展方向,变革