基于数据转换与Co-training技术的多标记学习算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:liongliong545
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记问题在现实世界的大量应用中普遍存在,现在已经成为机器学习和数据挖掘两个相关领域的研究热点。多标记学习的提出为多义性对象的复杂化问题提供了一种有效的解决方法,目前已存在大量的多标记学习算法,并在文本分类、生物信息学、自动视频注释、场景分类和许多其他领域广泛应用。然而,现在的解决多标记学习问题的方法侧重于利用传统的监督学习框架,其做法通常可以分为三种:第一种是把多标记学习问题转换为多个两类分类问题,其中每个标记对应一个二分类问题,这种方法适用于不是很明显的范畴,在样品丰富的情况下性能将是更好的,但更容易遇到标记样本稀疏的问题;第二种是多标记学习问题转化为标记顺序问题,这种方法重点在于对标记之间进行正确的排序,但它需要额外的学习阈值函数来获得相关标记的最终集合,但是通常比较难获得这个阈值函数;第三种是标记之间的结构信息和多标记问题研究相结合的方法,这种方法在合理使用结构信息时,可实现很好的性能,但缺乏领域知识指导时,几乎不知道如何使用结构信息较好。基于以上方法,本文以提高分类精度为切入点,通过对多标记示例集的定义和提取,基于近邻加权及多示例的多标记学习算法的提出,多标记与半监督学习算法的结合,进行了为提高多标记学习算法精度的深入研究。本文进行的主要研究工作和提出的创新点总结如下:1、多标记学习中问题转化的研究。现有的多标记算法中存在将多标记问题转化为多标记多示例问题的思想,这在一定程度上提高了多标记学习的分类性能,但在时间复杂度、分类精度等方面仍可以进一步提高。引进KNN(K-Nearest Neighbor)和加权方法,对每一个可能存在的类别标记,确定集合中属于这一类别标记的K个近邻样例,近邻给予加权再取平均后得到平均向量,样本就转化成数据包的形式,来保持数据整体分布的局部特性,提高分类的准确度。2、基于数据集中存在的大量未标记样例的多标记问题的研究。在现实世界的问题中,往往更容易获得大量未标记数据,每个对象都具有一个以上的标记,这大大增加了获得已标记数据的难度。因此,针对基于大量未标记数据的多标记学习研究,使用半监督学习将提高多标记分类的性能。将协同训练(Co-training)思想应用于多标记学习中,在数据集上选取局部和全局KNN进行训练得到两个不同分类器,分类器标记未标记样例并更新训练集,过程连续迭代,直到训练完成,从局部和全局的角度考虑训练集,以提高分类精度。
其他文献
校园门户是整个数字校园体系结构中最上层的用户接口。它具有单点登录、信息集成、应用整合、可定制性等一般门户的特征,同时又要在改造代价最小的条件限制下,无缝集成校园网中
20世纪90年代以来,计算机网络技术和多媒体信息处理技术在世界范围内得到了迅猛发展。一方面,网络技术的发展,使处于世界各地的人们进行信息交流更加方便、迅速。另一方面多媒体
二维条码相比传统的一维条码具有高密度、可纠错、可表示多种文字信息、可表示图像、可引入加密机制等优点,成为现代物流环节中不可或缺的关键技术之一。 本课题主要研究二
生物特征识别技术作为一门新兴的身份鉴别技术,近年来得到了蓬勃的发展。掌纹作为生物特征的一种,具有数据量大、唯一性强、易采集的优点,在各个领域均有广泛的应用前景。本文面
油液监测技术是近年来工业界普遍采用的监测与诊断设备的技术之一,它是通过分析被监测机器的在用润滑剂(或工作介质)的性能变化和携带的磨粒的情况,以获得机器的润滑和磨粒状
语义Web技术的兴起,为Agents理解信息内容和实现语义互操作扫清了障碍,进而给异质Agents在Web上的大规模应用开拓了契机。然而传统软件Agent技术在Web中的应用潜力严重受阻,原因
上世纪90年代至今,随着互联网的飞速发展,Web上的各种资源正在以爆炸式的速度膨胀。面对汪洋的Web信息资源,如何从中高效的精确的检索信息,也成了当前迫切需要解决的课题。 以
如今,在计算机真实感图形学领域中,三维模型表面的高质量细节特征越来越重要。以往模型表面的细节特征都是将二维纹理,凹凸映射和位移映射等技术应用于三角网格模型或细分曲
机器翻译至今已有60年的历史。尽管机器翻译软件已实现商品化,但其译文尚未达到忠实通顺的现代翻译标准,难以满足世界巨大的英汉互译市场需要。目前英汉机器翻译技术遭遇瓶颈,其
网络诱骗系统是一种主动的安全防御技术,与传统的Internet安全防御技术如防火墙、入侵检测系统以及各种认证和加密技术等不同,它通过在网络中设置一些专门的资源(即“诱饵”)主