论文部分内容阅读
聚类算法是机器学习、数据挖掘领域重要的研究内容,它能够自动地从海量无标签的数据中提取信息使得相似的数据被聚在一起而不相似的被分离开来。最近几年来,具有多视图特征和缺失特征的聚类算法研究越来越得到学术界的关注,逐渐成为研究的热点问题。现有的多视图聚类方法通过相似度或者特征融合的方法在最优的相似度上做聚类,但是往往优化步骤复杂、算法复杂度较高。同时现有的缺失聚类算法将缺失值填充和聚类过程分割开来,往往不能取得令人满意的聚类结果。为了解决上述的两个问题,根据对目前已有的多视图特征聚类算法和缺失特征聚类算法深入研究,本文提出了基于后期融合的高效多视图特征聚类、基于后期融合对齐最大化的多视图特征聚类和缺失特征的k均值聚类。本文工作的贡献可以概括为三个方面:(1)提出了一种基于后期融合的高效多视图特征聚类算法框架(MKKMLF)。该框架通过生成由不同视图产生的多个聚类划分矩阵融合成最终的聚类划分结果。提出的后期融合用于多核方法来增强聚类结果的多样性的工作,同时大大降低传统多核聚类算法的时间复杂度。为了实现所提出的后期融合的框架,两种新颖的均值和自适应权重的算法被提出来解决所提出的多核k均值聚类优化问题,并且证明了收敛性。此外,从理论和实验上证明了这两种算法的时间复杂度随着样本数量的增加而线性增长,这使得所提出的算法的实用性大大增强。经六个多视图特征的标准数据集实验证明,MKKM-LF在大大减少时间开销的同时,始终展示出与目前最优的多核聚类算法相当或更好的聚类表现。这充分验证了基于后期融合的多核聚类框架的优势。(2)提出了一种基于后期融合对齐最大化的多视图特征聚类算法(MVCLFA)。MVC-LFA首先从理论上证明了最大化各个视图的划分矩阵和最优聚类结果之间的对齐在概念上等价于最小化现有的k-means算法的损失函数。因此,所提出的后期融合对齐最大化不仅能够使得各个视图的聚类结果趋近于一致,同时也有助于聚类性能的提升。MVC-LFA尝试通过最大化一致聚类矩阵和加权基划分矩阵之间的对齐来解决多视图特征聚类问题。为了高效的求解优化目标,一种轮替优化算法被提出来解决所设定好的优化目标,并且从理论和实验上都证明了它的收敛性。与现有的多视图特征聚类方法相比,MVC-LFA在测试集上表现出了更好的聚类性能和更低的时间复杂度。(3)提出了一种基于k均值的缺失特征聚类方法(k-means Filling)。与现有的算法独立进行填充和聚类学习不同,目标式将两种处理过程统一为一个优化目标。通过这样的设计,缺失的特征被交替地估算以更好地用于聚类,而现有的已经观察到的未缺失的部分在整个过程中保持不变。此外,通过提出一种具有快速收敛性的轮替优化算法来解决不完整数据聚类中的优化问题。在九个UCI标准数据集和一些大型实际应用的数据集上的实验表明,与目前常用的缺失特征聚类方法相比,所提出的算法始终达到更优的性能。