论文部分内容阅读
传统聚类分析是一种无监督学习方法,聚类过程仅仅使用了无标记数据,忽略了数据集自然存在的各种先验信息。然而,半监督聚类则在使用无标记数据进行聚类分析时,将数据集中的先验信息引入到聚类过程以改善聚类的执行。现有的大多数半监督聚类方法往往假定数据以集中方式存储于一个中心站点,同时隐含假设所处理的样本个数和样本服从的概率分布不会随着时间的推移而发生变化。但是,在数据挖掘的许多实际应用中广泛存在着分布式数据集和动态演变数据集这两种特定的数据形式。在分布式场景下,数据集自然分布于多个站点,受数据安全、数据隐私、通讯代价等因素的限制,站点数据无法集中存储于一个站点。对于动态演变数据,聚类的目的是要产生一个随时间变化的聚类序列,聚类序列中的每一个聚类结果需要同时满足两个标准:对当前时段的数据应当具有较高的聚类质量;与先前时段的聚类结果较为相似。本文的研究工作包括两部分:第一部分重点研究了当数据集合以水平分布方式存储时,使用并行k-means和分布式EM作为基本算法的半监督分布式聚类框架;第二部分则将约束并行k-means和基于约束的分布式EM思想扩展应用于演化数据集,实现了基于约束聚类框架的演化聚类。本文的主要研究成果包括:1、提出了以并行k-means为基本算法的三种分布式半监督聚类框架。(1)启发式分布k-means算法将已有的站点局部聚类结果作为先验信息,其最大优点在于能够改善并行k-means算法对初始中心的依赖。(2)基于约束的并行k-means算法(CPKM)以并行k-means算法为基础,以站点用户提供的成对约束为先验信息,改善了并行k-means收敛于局部最优的缺陷;进而通过使用成对样本的均值中心来估计这些约束样本的簇指派方案,避免了约束样本的簇指派方案依赖于约束样本排列顺序的不足。(3)软约束分布式k-means算法(DBSC)仍然使用成对约束作为先验信息,但是样本间的约束关系为软约束,这意味着允许约束信息中存在错误约束。CPKM通过定义约束违反权重,有差别地处理约束违反,能够有效利用这些约束信息来改善分布式聚类精度。2、将成对约束信息以软约束的形式引入高斯混合模型(GMM),提出了约束一致高斯混合模型(CCGMM),并将CCGMM模型进一步扩展为基于约束一致的分布式高斯混合模型(DCCGMM),以用于分布式数据的半监督聚类。(1)CCGMM模型的主要特点包括:估计参数同时反映了数据的固有分布和用户的先验信息;参数估计的迭代公式有封闭的解析表达式。(2)DCCGMM模型在使用分布式EM作为迭代框架来估计全局模型参数时,只使用了各站点的局部模型参数,站点数据和约束信息仅限于本站点使用。3、通过分析最大化对数似然与标准k-means目标函数的内在关联,以MPCK-MEANS算法为基础,提出了一种在分布式环境下同时进行约束聚类和局部距离学习的半监督分布式聚类框架。4、将先前聚类结果视为当前数据样本的先验信息,提出了两种基于约束聚类方法的演化聚类框架。两种演化聚类框架均以约束违反的形式定义历史代价,以实现聚类序列的时序平滑。(1)基于约束k-means的演化聚类算法(CEKM)以当前时段的簇指派方案下计算得到的簇中心去拟合历史数据,以所有历史数据与当前簇中心之间的距离的和作为总的历史代价。(2)约束演化混合模型(EGMM)以历史数据中具有相同簇标记的成对样本作为约束信息,通过计算这些样本在当前时段的参数模型下后验分布之间的总体差异来调整当前模型的参数估计。