可靠的半监督分类算法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:clarkkevin_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和机器学习在人们的日常生活中扮演着越来越重要的角色,尤其是在计算机视觉和自然语言处理领域。然而,绝大多数的机器学习算法都建立在完全标注的数据集上,而现实场景中的数据往往是没有被标注的。为了避免耗费人力物力的人工标注数据的操作,半监督学习应运而生。半监督模型在仅仅需要少量的标签数据的同时,利用了大量无标签数据。然而,使用大量无标签数据之后建立的半监督模型的效果,有时候会比仅仅建立在少量标签数据上的监督模型的效果还差。这一现象通常被称为半监督学习的可靠性问题。因此,建立一个安全可靠的半监督模型是一项重要的科学任务,同样也有很强的应用价值。针对无标签数据的不确定和不可靠的问题,本文的工作分别从模型假设和数据的固有结构两个不同的角度,量化了无标签数据的安全性并学习出数据权重。对不可靠的无标签数据进行降权,减小这部分数据对模型的影响。现有权重学习算法,一方面,缺乏深入探索数据固有的结构信息,而单独依赖特定分类器的划分效果,使得权重值可能与所选分类器有关,不能反映真实的权重信息。另一方面,由于现有的可靠性模型建模的角度和模型的复杂性,使得它们并不能处理数据流数据,这在实际应用中还是一块很大的空缺。针对当前安全半监督学习算法的相关问题,本文首先从学习无标签数据权重出发,提出两个可靠半监督学习算法:ReSSL算法和RP算法。前者度量了数据与聚类假设的一致性程度,从而学习数据权重;后者是结合了数据邻域的标签规则度和数据流型结构的一种可靠性权重传播算法,并提出它的分布式扩展Distributed-RP算法以处理大规模数据;然后,本文提出两种在线可靠的半监督学习算法,即ReSSL Stream算法和BLS算法,以弥补当前可靠性半监督算法在数据流上应用的空白。总观全文,本文的创新点为:第一、本文结合数据固有的结构信息,提出两种学习无标签数据可靠性权重的算法,可用于检测无标签数据可用性。第二、结合数据的权重信息,本文提出两种全新的可靠的半监督分类算法。第三、考虑实际应用场景,本文提出数据流上的可靠半监督扩展算法,弥补当前算法在数据流上应用的空白。本文通过大量的实验表明了以上算法在真实数据上的有效性与优越性,并理论上分析了在线扩展算法的误差上界。
其他文献
本文通过对科学技术的发展史研究,总结西方科学和中国科学的本质和特点,在相同的科学含义基础上,对中西方科学进行了比较。由于文化基因的不同,中国不存在真正意义上的西方科
<正>新兴自媒体新闻平台层出不穷,已经逼迫部分传统媒体新闻人为求生存而选择职业转型。本文通过了解传统媒体新闻行业发展的现状并以其为依据,对自媒体新闻行业经济效益进行
中职生学习能力的欠缺是造成医学专业课授课困难以及学生学习效果差的主要原因。笔者从锻炼学生整理学习笔记的角度入手,培养学生养成良好的学习习惯,掌握正确的学习方法,提
本文简要地阐述了基础教育课程改革背景下教师角色的转变,教师要转变观念,学会倾听、善于筛选和整合学习资源。
职业教育在整个教育体系中处于重要的地位,担负着培养高素质高技能劳动者的重要任务。在全国职业教育加速发展的今天,职业学校必须把德育工作摆在素质教育的首要位置,全面培
理论建构是社会科学研究的重要目标。关于"传统思想"转化为"传播理论"的问题,回答"是否可能"、"为何可能"比回答"如何可能"更为重要。吉登斯的"双重解释"说为我们提供了很好