基于Tri-training的半监督多标记学习算法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:zhaomingze2631539
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习是机器学习领域中的重要研究方向之一,它能够直观地反映多义性对象所具有的多种语义信息,其学习的任务是为待学习样本预测其对应的类别标记集合。近年来,研究学者们对多标记学习问题提出了很多学习方法和策略,并将其应用于网页文本分类、图像场景分类和生物信息学等实际领域中。然而传统的多标记学习仍然是在监督意义下进行的,即要求训练数据集的训练样本必须全部是已标记样本,但是,在现实生活中,获得足够的有标记样本集十分困难。因此,鉴于上述的不足,本文结合半监督学习中最重要风范之一的协同训练机制,利用协同训练机制能够综合利用少量的已标记样本和大量的未标记样本以提高泛化性能的优点,研究如何充分利用半监督学习的优势来完成多标记学习任务。主要工作内容包括以下三个方面:(1)利用“一阶”策略,将多标记学习问题分解为多个二类分类问题,结合Tri-training算法训练分类器,设计了一种基于Tri-training的半监督一阶多标记学习算法。该算法忽略标记之间的相关性,将多标记学习问题分解为多个单标记学习问题,对已标记样本集中样本的每一个标记进行训练,并利用Tri-training过程学习得到相应的3个分类器。面对一个新的测试样本,用学习到的3个分类器对相应的每一个标记进行投票,从而得到一组对测试集样本的预测结果。通过在UCI数据、网页文档分类数据和自然场景分类数据上的对比实验表明,提出算法能够得到较好的分类结果。(2)利用“二阶”策略,考察两两标记之间的相关性,将多标记学习问题转化为标记排序问题,结合Tri-training算法训练分类器,设计了一种基于Tri-training的半监督二阶多标记学习算法。在学习阶段,该算法首先为已标记样本集中的每一个样本添加一个虚拟标记,然后对每一对标记进行训练,并利用Tri-training过程学习得到相应的3个分类器;在预测阶段,给定一个新的测试样本,用学习到的分类器对相应的每一对标记进行预测,并统计每个标记所得的票数,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,最后将虚拟类标记的得票数作为阈值对标记排序结果进行划分,即可得到一组对测试集样本的预测结果。通过在UCI数据、网页文档分类数据和自然场景分类数据上的对比实验表明,提出算法能够得到较好的分类结果。(3)设计并实现了基于Tri-training的半监督多标记学习系统。该系统在充分考虑界面美观、人机交互友好以及易于维护更新的基础上,以MATLAB为后台,链接SQL Server数据库,在C#平台下进行总体搭建。系统融合了多个经典的多标记学习算法,集成的算法包括ML-kNN算法、Rank-SVM算法、LEAD算法、TRAM算法以及本文提出的基于Tri-training的一阶算法和基于Tri-training的二阶算法。通过实际的操作比较,设计的系统界面简洁美观,操作简单快捷,方便了用户进行理论创新和实验比较。本文结合协同训练机制,为多标记学习如何开展有效地半监督学习提供了参考,也在不同的策略下探索了多标记学习分类算法的综合性能。
其他文献
本文主要研究了增强现实系统中的三维注册技术,它所要完成的任务是实时地跟踪用户头部的位置和视线方向,根据这些信息确定所要添加的虚拟物体在真实空间坐标中的映射位置,并将它
随着企业信息化程度的不断深入,企业与企业之间、企业内部各部门之间的信息共享越来越频繁。但由于不同企业信息化建设的程度及方式存在很大差异,使各信息系统间的数据交换产
远程在线监测系统应用计算机网络、信息集成、专家系统等多门学科的综合技术,通过Internet网络在异地实现对现场设备实时监视,并根据监测数据进行故障的预警和诊断,并为预维修提
中医学有几千年的历史,是我国传统文化的一颗璀璨明珠,在我国文明发展历程中占据着重要的位置。中医学理论的精华在于其能从整体观念上进行辩证论治,这套理论是无数从医者智
人脸识别技术应用背景广泛,可用于身份识别、人脸的视频检索以及人机交互等诸多领域。这些巨大的应用前景使得人脸识别技术越来越多的成为当前模式识别和人工智能领域的一个
随着网络技术、信息技术的发展,工作流技术日益成为当前信息领域的一个焦点,并成为办公自动化系统的核心技术之一。笔者通过对工作流的基本理论和建模技术的深入分析和研究,
本文对入侵检测系统中高效模式匹配算法进行了研究。文章首先分析了入侵检测系统中常用的模式匹配算法,并通过实验方法对BM算法、AC算法和WM算法进行了性能对比,讨论了这三个算
近年来,在金融服务、网络监控、电信数据管理及传感器检测等领域中,出现了一类新的数据密集型应用。这类应用的特征是:数据以大量、快速、时变的数据流形式持续到达,所以数据不宜
数据集成平台的作用是提供一个访问异构数据源的统一接口,使开发人员不必考虑数据模型的异构性、数据抽取、数据合成等问题。本文以电力系统领域数据现状和对数据集成的要求
随着互联网的快速发展和宽带网络的逐步普及,流媒体最近几年成为了发展的热点,而视频点播系统(VOD系统)则是目前流媒体应用的主要表现形式之一。各种形式的VOD应用将给INTERN