基于半监督学习的分布式和演化聚类研究

来源 :南京航空航天大学 | 被引量 : 6次 | 上传用户:ren584521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统聚类分析是一种无监督学习方法,聚类过程仅仅使用了无标记数据,忽略了数据集自然存在的各种先验信息。然而,半监督聚类则在使用无标记数据进行聚类分析时,将数据集中的先验信息引入到聚类过程以改善聚类的执行。现有的大多数半监督聚类方法往往假定数据以集中方式存储于一个中心站点,同时隐含假设所处理的样本个数和样本服从的概率分布不会随着时间的推移而发生变化。但是,在数据挖掘的许多实际应用中广泛存在着分布式数据集和动态演变数据集这两种特定的数据形式。在分布式场景下,数据集自然分布于多个站点,受数据安全、数据隐私、通讯代价等因素的限制,站点数据无法集中存储于一个站点。对于动态演变数据,聚类的目的是要产生一个随时间变化的聚类序列,聚类序列中的每一个聚类结果需要同时满足两个标准:对当前时段的数据应当具有较高的聚类质量;与先前时段的聚类结果较为相似。本文的研究工作包括两部分:第一部分重点研究了当数据集合以水平分布方式存储时,使用并行k-means和分布式EM作为基本算法的半监督分布式聚类框架;第二部分则将约束并行k-means和基于约束的分布式EM思想扩展应用于演化数据集,实现了基于约束聚类框架的演化聚类。本文的主要研究成果包括:1、提出了以并行k-means为基本算法的三种分布式半监督聚类框架。(1)启发式分布k-means算法将已有的站点局部聚类结果作为先验信息,其最大优点在于能够改善并行k-means算法对初始中心的依赖。(2)基于约束的并行k-means算法(CPKM)以并行k-means算法为基础,以站点用户提供的成对约束为先验信息,改善了并行k-means收敛于局部最优的缺陷;进而通过使用成对样本的均值中心来估计这些约束样本的簇指派方案,避免了约束样本的簇指派方案依赖于约束样本排列顺序的不足。(3)软约束分布式k-means算法(DBSC)仍然使用成对约束作为先验信息,但是样本间的约束关系为软约束,这意味着允许约束信息中存在错误约束。CPKM通过定义约束违反权重,有差别地处理约束违反,能够有效利用这些约束信息来改善分布式聚类精度。2、将成对约束信息以软约束的形式引入高斯混合模型(GMM),提出了约束一致高斯混合模型(CCGMM),并将CCGMM模型进一步扩展为基于约束一致的分布式高斯混合模型(DCCGMM),以用于分布式数据的半监督聚类。(1)CCGMM模型的主要特点包括:估计参数同时反映了数据的固有分布和用户的先验信息;参数估计的迭代公式有封闭的解析表达式。(2)DCCGMM模型在使用分布式EM作为迭代框架来估计全局模型参数时,只使用了各站点的局部模型参数,站点数据和约束信息仅限于本站点使用。3、通过分析最大化对数似然与标准k-means目标函数的内在关联,以MPCK-MEANS算法为基础,提出了一种在分布式环境下同时进行约束聚类和局部距离学习的半监督分布式聚类框架。4、将先前聚类结果视为当前数据样本的先验信息,提出了两种基于约束聚类方法的演化聚类框架。两种演化聚类框架均以约束违反的形式定义历史代价,以实现聚类序列的时序平滑。(1)基于约束k-means的演化聚类算法(CEKM)以当前时段的簇指派方案下计算得到的簇中心去拟合历史数据,以所有历史数据与当前簇中心之间的距离的和作为总的历史代价。(2)约束演化混合模型(EGMM)以历史数据中具有相同簇标记的成对样本作为约束信息,通过计算这些样本在当前时段的参数模型下后验分布之间的总体差异来调整当前模型的参数估计。
其他文献
本文阐述了路桥工程施工管理的基本特点,从而针对路桥工程施工管理过程中容易出现的一些问题及不足进行了总结与分析,并提出了合理有效的解决对策.
高血压既是慢性肾脏病的始动因素,也是慢性肾脏病的进展因素,还是慢性肾脏病患者心血管并发症的高危因素。因此,对于肾脏病合并高血压必须积极治疗。根据病因和发病机制不同,
20世纪白俄罗斯音乐文化是人类文化宝库中独一无二的一朵奇葩。白俄的钢琴音乐是白俄音乐文化中的一个独特现象。这一现象的复杂性、多样性以及它在民族文化艺术形成和发展过
工作流管理系统是利用计算机技术来自动化地执行组织机构中业务流程部分或全部的一种技术,能大大提高业务流程的处理效率和执行质量。由于流程的不确定性,大大增加了工作流建模
如今随着发电企业市场化进程的加剧,竞争力无处不在,受外界和企业自身的冲击,如何提高效益,成为电力行业一大难题。电厂电力拖动系统节能措施就应时而生,它是电厂提高竞争力以及缓
特征提取是模式识别的一个基本问题,提取有效特征对人脸识别起着关键的作用。在众多的特征提取算法中,基于子空间算法由于计算量小、识别性能较好而成为人脸识别中的主流算法
目的观察与探究ACEI、ARB并用治疗慢性肾脏病蛋白尿患者的临床治疗作用。方法选取2013年11月至2016年11月于本院就诊及治疗的60例慢性肾脏病蛋白尿患者作为研究对象,按照随机
<正>糖尿病肾脏病(DKD)是糖尿病最常见的微血管并发症之一,约占1型糖尿病发病率的35%~40%,约占2型糖尿病发病率的28.3%,而90%~95%的糖尿病患者为2型糖尿病,因而半数以上的DKD
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
随着多核与众核架构的异构平台不断流行,如何在该平台下进行高效并行编程成为重要的研究方向。Streamit编译器是由MIT开发的一种面向多核与集群环境下的基于同构平台的并行编