高维数据子空间聚类分析及应用研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jxj860205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种重要的数据分析手段。通过聚类分析,人们能有效地发现隐含在数据集中的数据分布特性,从而为进一步充分、有效地利用数据奠定良好的基础。随着信息技术的迅猛发展,聚类所面临的不仅是数据量越来越大的问题,更重要的还是数据的高维度问题。但是,受“维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果,这对高维数据聚类分析技术提出了很大的挑战。高维数据聚类是聚类分析技术的重点和难点,基于谱聚类的子空间聚类方法是实现高维数据聚类的有效途径。子空间聚类的目的是将来自不同子空间的高维数据分割到本质上所属的低维子空间,它是高维数据聚类的一种新方法,在机器学习、计算机视觉、图像处理和系统辨识等领域有广泛的应用。本文针对高维数据的子空间聚类问题给出了 一些新的聚类模型,主要工作包括以下几个方面:1、通过分析自表示系数矩阵与聚类指标矩阵之间的关系,我们提出了一个新的相似度学习和子空间聚类的统一极小化框架——基于Direction-Grouping-Effect-Within-Cluster的结构稀疏子空间聚类(SSDG)。在SSDG中,为了让本质上属于同一子空间的数据高效地聚合在一起,我们给出了direction-grouping-effect-within-cluster(DG)概念。基于DG,我们设计了一个自表示系数矩阵和聚类指标矩阵耦合的新正则项。该正则项使自表示系数矩阵和聚类指标矩阵具有以下期望的性质:当数据来自相同的子空间时,它们有相同的标签,此时聚类指标矩阵迫使自表示系数向量有大的余弦相似度,或DG;另一方面,当自表示系数向量具有大的余弦相似度时,自表示系数矩阵迫使数据具有相同的聚类标签。将新的正则项融入到结构稀疏性子空间聚类(结构稀疏子空间聚类仅考虑了相似度矩阵的结构稀疏性),我们提出了 一个新的统一最小化框架—-SSDG。SSDG不仅考虑了相似度矩阵的结构稀疏性,还考虑了DG。将模型应用在几个常用的数据集上,实验结果表明我们的方法在揭示高维数据的子空间结构方面优于其它先进的方法。2、通过分析相似度矩阵和标签的判别性和一致性,我们提出了一个新的子空间聚类的统一优化框架—-判别一致性子空间聚类(DCSC)。在DCSC中,为了让同一类数据点的相似度矩阵具有一致性以及不同类数据点的标签具有判别性,我们给出了一个新的正则项,该正则项耦合了标签和相似度矩阵。由于结构稀疏子空间模型仅考虑了不同类数据点的相似度矩阵的判别性及同类数据点标签的一致性,于是我们将标签引导的新正则项与结构稀疏子空间聚类中的结构稀疏正则项结合,提了出了 DCSC模型。它使得相似度矩阵以及标签同时具有一致性和判别性。对常用数据集的实验表明,我们的方法在揭示高维数据的子空间结构方面比一些先进的两阶段子空间聚类方法和统一结构稀疏子空间聚类方法表现更好。3、稀疏谱聚类改进了传统的聚类方法,通过引入稀疏正则化使隐相似度矩阵具有聚类判别能力,然而,它是没有充分利用相似度矩阵和数据标签之间关系的两阶段法。结构稀疏子空间聚类将相似度矩阵和聚类指标矩阵结合成一个统一的框架,从而优于两阶段聚类方法,但是它没有考虑隐相似度矩阵的稀疏性。我们利用数据的相关性给出了一个新的自适应稀疏正则项来增强隐相似度矩阵的聚类判别特性,从而克服了稀疏谱聚类中稀疏性惩罚的盲目性。将新正则项与结构稀疏子空间聚类相结合,提出了新的统一优化模型一一判别增强谱聚类(DESC)模型。该模型增强了聚类判别能力,具有较好的聚类性能。对常用数据集的实验表明,该方法在揭示子空间结构方面优于现有的两阶段方法和统一的结构稀疏子空间聚类。4、稀疏谱聚类利用稀疏结构先验逼近K-块隐相似度对角矩阵,这是一种间接求块对角矩阵的方法。而且稀疏谱聚类是非凸的,很难直接求解聚类指标矩阵。针对这些问题,我们给出了块对角矩阵诱导的正则项,该正则项直接寻求块隐相似度对角矩阵。将新正则项与谱聚类模型相结合,利用不同的条件,提出了两种新的模型,它们都称为判别增强谱聚类(DESC)模型。针对每个模型,分别给出了一种直接求解聚类指标矩阵的有效算法。在数据集上的实验验证了这两个模型的有效性。
其他文献
目的:探讨增强型体外反搏(enhanced external counterpulsation,EECP)对缺血性心力衰竭患者心肾功能及内分泌系统的影响。方法:根据随机数表法将106例缺血性心力衰竭患者分为
慢性非传染性疾病已经并将继续成为影响人民健康的主要危害.糖尿病已成为继心脑血管病和肿瘤之后第三大非传染病,亦必然成为导致病残和死亡的重要原因之一.了解糖尿病的流行
介绍俄罗斯新开发的过境运输罐车。该车能运送20余种液态化工产品,轨距可变,自重24t,总重72t~80t,罐体长度为10870mm。罐车有两种型号,罐体直径分别为2400mm和2600mm。
期刊
<正>山东省寄生虫病防治研究所是全省唯一的寄生虫病防治研究专业机构。1951年该所承担了对丝虫病进行流行病学调查与防治研究,历时50多年,形成、积累了大量档案材料。经过系
质量诚信并非标准化的新领域,2008年和2009年发布的《信用基本术语》《企业质量信用等级划分通则》国家标准,以及转化为国家标准实施的ISO《质量管理体系要求》《社会责任指
基于嵌入式的Web服务应用体系提出将通用服务器架构LAMP应用于嵌入式系统的设计思想。分析LAMP架构在嵌入式领域的应用优势,设计嵌入式平台上LAMP架构的具体实现方案,并给出LAM
质量控制是提高检验医学水平,保证检验结果准确性的重要手段,包括分析前、分析中和分析后质量控制三个方面,而凝血四项(PT、APTT、TT、Fg)是检测人体血液是否有凝血障碍的几项
近年来,小麦的病虫害发生较多,而且每个主要麦区种植地区的病虫害种类都各不相同,而重大病虫害会严重影响小麦的产量和质量。本文根据小麦的各个主要生产区域入手,从防控目标、防
当前,新冠肺炎疫情仍然是中国社会的瞩目焦点,在这场特殊战“疫”中,从党中央到基层,共同诠释着“坚定信心、同舟共济、科学防治、精准施策”这一防控总要求的深刻要义;在这场特殊
报纸