基于稀缺标记样本的半监督学习研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zk1311988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于稀缺标记样本的半监督学习作为传统半监督学习的一个重要领域,主要研究当样本集中标记样本与未标记样本数量存在严重不平衡性时,如何获得优秀的鲁棒分类器的问题。区别于一般的半监督学习问题,稀缺标记样本环境中标记样本的数量特别有限,往往只占整个样本集总量的1%-5%,这种严重不平衡的数据结构使得传统半监督学习方法难于构造具备优秀泛化能力的分类器。目前解决稀缺标记样本学习问题的方法一般采取传统的以标记样本为导向的学习策略。之前的研究成果表明,由于标记样本特别稀疏,这种思路在稀缺标记样本环境中并不可行。因此,为了进一步研究稀缺标记样本学习问题的特点并寻找更有效、更鲁棒的学习算法,本文从以下三个方面对基于稀缺标记样本的半监督学习提出了新的考量:   稀缺标记样本学习问题的定义与度量。文章首先对稀缺标记样本学习问题提出了严格的数学描述。在此基础上,采取稀缺标记样本区域内曲线下面积(AUCLR)来度量学习算法的性能并给出其数学表达。   采用以未标记样本为导向的方法。文章把稀缺标记样本半监督学习问题转化为一类特殊的无监督学习问题来处理。为了解决标记样本特别稀疏的难点,文章提出基于近似判断的约束扩展算法和基于矩阵幂积的约束传播算法。在此基础上,文章进一步提出采用基于约束传播的谱聚类算法CopSC来构造基分类器。最后,文章运用约束集的两类不一致性理论对算法表现进行了理论推导和优化。实验验证了CopSC在稀缺标记样本环境中良好的算法表现。   采用多重半监督假设。在处理稀缺标记样本学习问题时,基于单一半监督假设的算法鲁棒性表现较差。因此,文章提出同时利用全部三类半监督假设,并采用混合系数来控制其中单一假设的权值。实验表明文章提出的SS-CE3A算法在稀缺标记样本环境中具备优秀的泛化能力和鲁棒表现。
其他文献
本文深入研究了粗糙集和元胞自动机在空间负荷预测中的应用,发现在提取元胞自动机规则上,采用粗糙集的方法虽然能从不完全、不确定、存在噪音的空间数据库中提取转换规则,但是存在容错能力和抗干扰能力相对较差的问题。而神经网络具有很好的泛化能力和抗干扰能力,因此,本文中引入神经网络,用神经网络的抗干扰性强的特性弥补粗糙集的不足,从而使得提取元胞自动机转换规则的收敛速度和准确性得以提高。在此基础上,本文提出了一
随着虚拟化技术的发展,其应用场景也愈来愈广泛,这对于虚拟机系统中各项性能也提出了更多、更高的要求,如对于移植性的要求、对虚拟机运行性能的要求、对虚拟机间通信性能的要求
烟草行业是国家税收的主要来源之一,和全民生活也息息相关,所以我国实行了特殊的烟草专卖制度,即“统一管理,工商分设”,明确的说是由国家烟草专卖局集中统一管理烟草工商企
网络编码是一种新颖的网络传输技术,最早于2000年,由香港中文大学的Ahlswede等人首次提出。与传统路由组播方式只允许中间节点转发接收信息不同,网络编码理论允许中间节点对接收
精品课程管理系统是按照精品课程的建设标准建设而成的课程网站管理系统。许多学校建设的精品课程网络平台各自为政、自成体系,难以形成一个统一的标准和规范,系统之间共享性
BPMN是软件开发领域中较为常用的描述业务流程的建模标准。在包含业务流程可变性的软件产品线中,基于BPMN的业务流程模板可支持针对领域需求的业务流程描述,并且能够高效地生
近年来,随着微机电系统、片上系统、无线通信技术和低功耗嵌入式等技术的飞速发展,无线传感器网络被广泛应用于军事,医疗,环境监测,智能家居等领域,作为连接人类生活与物理世
雾和霾是影响户外视觉认知能力的常见因素。在雾天条件下,由于空气中气溶胶粒子的存在,使得目标物体反射光和周围环境光被吸收或散射,导致图像对比度降低、成像模糊、细节信
随着移动互联网的飞速发展,电子商务数据出现爆炸式增长,人们面临着越来越严重的"信息过载"问题。"信息过载"是指人们无法从海量的数据中快速准确的定位到自己所需要的信息,
下一代的电力系统称之为智能电网(Smart Grid,SG)。先进的网络通信技术可以实现SG经济、快速的数据传输,但智能电网通信网络(Smart GridCommunication Networks,SGCN)仍然面临着