基于半监督学习的两种聚类算法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:mailxxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习领域,有监督学习和无监督学习是两种常用的学习算法。有监督学习中学习器通过对大量有标签数据的学习,从而建立起用于预测无标签数据标签的模型;无监督学习则是在没有任何数据的先验知识下对数据进行分析从而自动完成数据的聚集。事实上,在许多实际应用中,经常会面临有标签数据在数量上的不足,或者是需要耗费很大的人力、物力和时间去标注数据,而完全不采用数据的一些先验知识的无监督学习往往不能得到有效的聚类效果。半监督学习方法就是用来处理大量的无标签数据和少量有标签数据的学习方法。半监督学习结合了两种传统学习算法的优势,它将少量“昂贵的”有标签数据和大量“廉价的”无标签数据有机地结合在一起,并将其作为先验知识用于指导学习的过程,较传统的机器学习算法能够获得较好的学习效果。半监督学习在理论研究和实际应用中都有着重大的意义。本文以半监督学习为基础,主要研究了两种基于半监督学习的聚类算法,在当前经典聚类算法的基础上进行半监督推广。在聚类分析的很多实际问题中,往往可用的成对约束集较少,考虑将数据集本身存在的空间结构信息和性质加以利用,从而自动完成约束集的扩展。本文研究了三种成对约束集扩展的方法:(1)依据成对约束的二值传递关系进行约束扩展。(2)在半监督学习的两类假设的基础上定义基于流形的密度敏感距离来取代传统的欧式距离,然后基于流形的密度敏感距离对数据成对约束进行扩展。(3)基于主动学习的策略来完成数据成对约束的扩展,目的是挖掘出具有代表性的成对约束对,从而能对聚类算法起到积极的指导作用。将扩展的约束集集成数据降维和聚类,即在投影空间中使用基于成对约束的K均值算法对数据聚类,算法不仅能够处理高维数据和降低基于约束的半监督聚类算法的计算复杂度,而且能够有效解决聚类过程中成对约束的违反问题和提高聚类效果。基于中心划分的聚类方法,面临的一个问题是不适用于多重尺度及任意空间形状的数据聚类处理,因此对于聚类结构比较复杂的数据集,聚类算法往往不能得到很好的聚类结果。另外对于比较松散聚类结构,AP算法倾向于产生较多的局部聚类。本文提出一种基于空间一致性的半监督近邻传播聚类算法,算法首先利用扩展的成对约束信息对数据点进行成对约束调整,构造稀疏距离矩阵。其次从整个数据观测空间完成基于密度的流形搜索,用以判别空间数据的不同流形分布。对于流形分布全局而言,通过函数变换完成不同流形上数据点对之间的距离度量的缩小或放大;而对于局部而言,将处在同一流形上的数据点映射成近邻传播算法容易处理的超球形或超椭球形的凸分布形状。仿真实验验证了本文算法较于传统的AP算法和其他经典的基于中心划分的聚类算法具有更好的聚类效果。
其他文献
OFDM(正交频分复用)技术作为一种多载波调制技术,具有频谱利用率高、抗频率选择性衰落、抗码间干扰能力强等优点,适用于无线信道中的高速数据传输,因而具有广泛的应用前景。
随着改革开放不断深入到我们的日常生活中,国民经济一直在稳定提高,城市道路不断进行整改、扩建,这就迫切需要对交通管理能有更高效、更全面的管理。为了全面监视、管理和控
Web Services是以XML为基础的一组协议体系,是一种分布式的应用集成技术,它的主要特点是松散耦合、易于扩展、方便部署、跨平台及与编程语言无关;目前被应用在很多领域,特别是
煤矿安全生产是一个综合人力条件、管理设施和地质等自然环境条件共存的非线性动态系统,它的变化虽有一定的规律性,但同时也会受到经济、环境等许多因素的影响。不同的影响因
操作系统的进程调度策略一直是一个研究热点。随着技术的进步,多核体系结构逐渐成为主流,这为操作系统的进程调度研究带来了挑战。其中,负载均衡问题扮演着很重要的角色。负
博客本身所具有的免费、自由和可共享的特点,使博客评论中出现了大量包含有广告、超链接、谩骂或是诽谤等信息的垃圾评论。这给网络用户阅读评论和与他人交流带来了不便,同时
随着信息技术的发展,计算机网络和电子商务一步步走进人们的生活,如何保证信息的安全成为人们越来越关注的问题。但目前,国内外广泛使用的SHA芯片大都是实现某种特定SHA算法
运动目标跟踪是计算机视觉领域的核心内容,具有广泛的实用价值和广阔的应用前景。它融合图像处理、自动控制、模式识别、人工智能以及计算机应用等多个学科的先进技术和研究
随着各种移动设备及定位技术的迅速发展,基于位置服务LBS(Location-Based Services)得到了广泛的应用。人们使用LBS服务可以很方便的获取到相应的服务,如查询酒吧、医院、附
我国地质条件复杂,山体滑坡事故频频发生,造成了巨大的经济损失和惨重的人员伤亡。滑坡的存在要求采用一种易于推广、成本低以及有效的监测手段对于这些正在滑动或潜在的滑坡