论文部分内容阅读
在机器学习领域,有监督学习和无监督学习是两种常用的学习算法。有监督学习中学习器通过对大量有标签数据的学习,从而建立起用于预测无标签数据标签的模型;无监督学习则是在没有任何数据的先验知识下对数据进行分析从而自动完成数据的聚集。事实上,在许多实际应用中,经常会面临有标签数据在数量上的不足,或者是需要耗费很大的人力、物力和时间去标注数据,而完全不采用数据的一些先验知识的无监督学习往往不能得到有效的聚类效果。半监督学习方法就是用来处理大量的无标签数据和少量有标签数据的学习方法。半监督学习结合了两种传统学习算法的优势,它将少量“昂贵的”有标签数据和大量“廉价的”无标签数据有机地结合在一起,并将其作为先验知识用于指导学习的过程,较传统的机器学习算法能够获得较好的学习效果。半监督学习在理论研究和实际应用中都有着重大的意义。本文以半监督学习为基础,主要研究了两种基于半监督学习的聚类算法,在当前经典聚类算法的基础上进行半监督推广。在聚类分析的很多实际问题中,往往可用的成对约束集较少,考虑将数据集本身存在的空间结构信息和性质加以利用,从而自动完成约束集的扩展。本文研究了三种成对约束集扩展的方法:(1)依据成对约束的二值传递关系进行约束扩展。(2)在半监督学习的两类假设的基础上定义基于流形的密度敏感距离来取代传统的欧式距离,然后基于流形的密度敏感距离对数据成对约束进行扩展。(3)基于主动学习的策略来完成数据成对约束的扩展,目的是挖掘出具有代表性的成对约束对,从而能对聚类算法起到积极的指导作用。将扩展的约束集集成数据降维和聚类,即在投影空间中使用基于成对约束的K均值算法对数据聚类,算法不仅能够处理高维数据和降低基于约束的半监督聚类算法的计算复杂度,而且能够有效解决聚类过程中成对约束的违反问题和提高聚类效果。基于中心划分的聚类方法,面临的一个问题是不适用于多重尺度及任意空间形状的数据聚类处理,因此对于聚类结构比较复杂的数据集,聚类算法往往不能得到很好的聚类结果。另外对于比较松散聚类结构,AP算法倾向于产生较多的局部聚类。本文提出一种基于空间一致性的半监督近邻传播聚类算法,算法首先利用扩展的成对约束信息对数据点进行成对约束调整,构造稀疏距离矩阵。其次从整个数据观测空间完成基于密度的流形搜索,用以判别空间数据的不同流形分布。对于流形分布全局而言,通过函数变换完成不同流形上数据点对之间的距离度量的缩小或放大;而对于局部而言,将处在同一流形上的数据点映射成近邻传播算法容易处理的超球形或超椭球形的凸分布形状。仿真实验验证了本文算法较于传统的AP算法和其他经典的基于中心划分的聚类算法具有更好的聚类效果。