论文部分内容阅读
半监督学习是目前机器学习与数据挖掘的研究热点,通过较少的监督信息(如标注样本点或成对约束信息)和大量的未标注数据提供的数据分布信息,能对数据集内的点进行正确归类。大量研究表示,高质量的监督信息有助于聚类,而监督信息的选择不当可能会造成聚类结果的下降,因此监督信息的选择得到人们的关注。本文将半监督学习与主动式学习相结合,通过主动获取高质量的监督信息来改善聚类的效果。主动式学习策略一方面通过获取具有最高信息量的点的类别,来加快学习过程;另一方面,通过确认一些不确定性较高的成对约束信息,也能快速提高归类效果。本文的工作大体分为三个部分:首先,提出了一种混合约束的半监督最近邻学习算法,标注点和成对约束信息以不同方式同时发挥作用,取得了较好的效果。在该算法中,标注点用于计算未标注点与各类别已知数据集之间的距离,而成对约束信息控制未标注点的类别分配过程。其次,提出了基于邻域不一致性的主动式学习策略,包括数据点的学习和成对约束的学习两个方面。在数据点的学习中,提出了两种学习策略,即基于Citation-KNN的打分策略和基于桥点的学习策略并与另外两种算法进行了对比;在成对约束的学习中,提出了纠错式学习算法ALEC。通过实际数据集上的实验验证了以上学习策略的有效性。最后,对大数据集给出了预处理方法,通过提取骨架的方式得到数据集的代表点集合,在代表点集合上进行聚类后,对原数据集进行标注。初步实验表明,通过对原始数据集的压缩,可以在保持CRI稳定的同时大幅降低聚类所需的时间。