论文部分内容阅读
半监督聚类算法是将传统聚类中加入了半监督学习思想而形成的一种新型算法,可以运用监督信息对聚类进行引导,监督信息可以分为成对约束和独立的类标签,但是在现实生活中,独立类标签往往需要大量的精力才可以获得,而样本之间成对关系的确定较为简单,所以考虑通过成对约束的监督信息来让聚类性能得到提升。但传统半监督聚类的缺点也是不可忽视的。首先初始先验集合的筛选具有随机性,其次在数据集中,带有监督信息的样本点数量远远少于未标记样本点的数量,此时通过主动学习可以对未标记样本数据进行训练,但已有的结合主动学习的半监督框架都具有较高的迭代时间,最后,目前为止成对约束在模糊聚类等软划分的方法上也可能会出现局部最优的情况。针对上述问题,本文对成对约束的半监督算法进行了研究。具体内容如下:针对已有的主动学习半监督研究框架和模型中迭代不稳定且先验信息选择上的随机性,本文考虑运用密度准则对先验集合进行确定,并通过主动学习,对未标记样本中不确定性最大的点进行主动约束标记,并对其约束条件进行了重新定义,通过对传统的半监督聚类进行了改进,提出了基于主动学习的稳定Cop-Kmeans聚类算法(Iterative Stable Cop-kmeans Clustering Based on Active Learning,ISCC-AL)。ISCC-AL算法分两部分进行,分别是构建稳定先验集合和主动迭代框架。通过标准数据集上的实验结果可以看出该算法相比传统半监督聚类,在聚类结果和迭代时间上都具有更好的性能。现实生活中数据集较多都是模糊性的,为了解决由模糊性导致了错误划分情况,同时加入成对约束,提出了改进的基于交叉熵的主动半监督模糊聚类算法(Active semi-supervised FCM based on Cross-Entropy,ASFCM-CE)。该算法通过添加权值和交叉熵对目标函数进行改进,并在后续过程中,主动对边界较为模糊点进行约束标记,从而使得聚类边界划分更加清晰。最终通过实验,本文算法可以得到更高的准确率。该论文有图28幅,表14个,参考文献111篇。