基于不完整视图的多核谱聚类算法及分布式实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:anabaow1a1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个信息爆炸的时代,数据量也在不断增加。为了挖掘这些数据中的有效信息,聚类分析技术被广泛应用。聚类分析作为数据挖掘和机器学习的一种重要手段,可以在不知道数据标签的情况下,将数据进行分类。随着数据结构变得越来越复杂,数据来源越来越多样化,传统的聚类方法无法处理来自多个角度的数据,因此多视图聚类算法成为了许多研究者关注的重点。多视图数据是一种描述同一个事物不同特征的多个侧面的数据集。通过研究视图内和视图间的关系,利用多视图聚类方法能更好的分析数据内部的特征,挖掘出其中隐藏的重要信息。针对越来越大的数据维度,普通的聚类方法无法进行有效的划分,核函数作为一种高维数据的处理方法,可以通过非线性映射处理线性不可分的数据,在高维空间进行聚类分析,得到了良好的聚类效果。然而在多视图数据中,单核函数不能灵敏的处理其中的异构数据,所以引入了多核学习的方法,其原理是采用不同的核函数去处理不同特征的数据,并将这些核函数进行有效的线性组合,从而挖掘出数据内部更多的潜在信息。实际应用中,多视图数据大多存在缺失,因此研究不完整视图数据成为了当下的热点。在不完整视图聚类中,重点在如何对数据进行估计和提高不完整视图的聚类效果。本文首先把均值估计作为数据的初始化结果;然后根据谱聚类算法具有处理更多不同类型数据的优势,把谱聚类算法和不完整多核矩阵估计结合成一个整体进行迭代更新;实验表明,不完整视图的聚类效果得以提高,并且在不同完整率的情况下,聚类效果更加稳定。目前,随着数据的爆发性增长,只是在单机上对这些大规模数据进行聚类显得越来越吃力。而云计算技术能有效地处理此类数据,因此本文基于Spark分布式平台,提出了分布式不完整视图的多核谱聚类算法。并在Spark集群上实现了该算法,证明了并行化算法可以高效地处理大规模数据,提高聚类算法的效率。
其他文献
目的探讨烟酸占替诺对急性缺血性脑梗死近期疗效.方法采用烟酸占替诺静脉点滴治疗60例与对照组60例比较.结果治疗前后两组神经功能缺损积分比较,差别有显著意义(P<0.01),大小
抗张强度是《煤矿防治水规程》中防水煤柱重要的计算参数,准确地确定其值对矿井的安全生产和合理开发煤炭资源都具有十分重要的意义。然而,抗张强度和抗拉强度是否指的同一个
诺氟沙星为广谱抗菌药,临床应用广泛,近年来国内有文献报道其不良反应,现摘要如下。
为深入研究全相位FFT(all—phaseFFT,apFFT)的相位谱性质以扩大其应用范围,本文从极坐标相位谱图、矢量分析、矩阵分析及其仿真实验等多个角度阐述了apFFT的相位测量机理,较透彻地
简单分析了聚能爆破装药在孔内爆破的力学效应,阐明了聚能爆破对岩石定向破裂的控制机理。在聚能爆破切割石材过程中,聚能射流起到前期切割出定向裂缝的作用,石材的最终开裂由后
全相位FFT频谱分析法具有优良的抑制谱泄漏性能及相位不变的特性,在工程上展现出了其重要的应用价值.虽然全相位FFT理论上具有相位不变的特性,相位无需校正,然而实际运用时,
以湖北应城石膏矿山和岩盐矿山为例论述了膏盐类矿山的环境效应,说明膏盐类矿山对环境影响以无机盐类污染为主要特征,同时,还存在着诸如地面沉陷等其它环境危害。就治理对策提出
为解决卫燃带的结渣问题,提出卫燃带向火侧表面温度计算及控制的设计准则,同时提出炉内火焰与水冷壁管及卫燃带间的集总参数换热模型,并利用此模型建立燃煤锅炉卫燃带敷设面积、
目的:观察应用保妇康凝胶与诺氟沙星联合用药治疗单纯型宫颈糜烂患者的效果。方法:选择78例单纯型宫颈糜烂患者进行研究,随机分为观察组和对照组。对照组38例给予诺氟沙星胶
重整程序耗时糜费让人注意到了预重整制度,但学界和实务界对预重整的认识仍不全面。预重整制度诸多优点作用的发挥需要法律从规范层面给予保障,我国的预重整在规范和实践上都