稀疏子空间聚类及快速算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lsq87810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一项无监督学习任务,在很多领域中有广泛应用。聚类分析可以发现数据的全局分布模式,以及属性之间有价值的相互关系。随着信息技术的进步,各种类型的数据维度可达成百上千,甚至更高,因此针对高维数据的聚类分析具有非常重要的意义。由于冗余维度和复杂噪声的存在,基于距离的相似度度量往往对高维数据失效,通常采用子空间的方法对高维数据加以分析。一般认为高维数据嵌入低维的流形中,子空间聚类的目的是将源自不同子空间的高维数据,划分到其所属的低维子空间。如何去除噪声对数据的影响,也是子空间聚类中的重要任务。近年来,稀疏子空间聚类得到了广泛的关注。稀疏子空间聚类是一种基于广义稀疏表示和谱聚类算法的数据聚类框架,其核心是设计能揭示高维数据真实子空间结构的表示模型,获得低维子空间下的系数表示矩阵,来构造有助于精确聚类的相似度矩阵。稀疏子空间聚类在计算机视觉、图像处理和模式识别等领域内已有广泛的研究和应用,但是仍然存在很多问题亦有很大的发展空间。本文在稀疏子空间聚类的模型和快速算法上展开了具有针对性的研究,具体而言,本文的主要工作和具体创新如下:1.提出一种基于稀疏表示的低秩子空间恢复和划分的统一框架(Low Rank subspace Sparse Representation,LRSR)。高维数据中往往含有冗余维度和奇异噪声,因此需要利用子空间恢复和划分的方式找到其所属的子空间。低秩表示的方法在含有稀疏噪声的数据上表现良好,但是直接利用含有噪声的现实数据作为字典并不合理,本文在LRSR模型中引入字典变量,与系数表示矩阵共同求解,具有更强的容错能力。在不相交子空间的假设下,LRSR模型对系数表示矩阵同时施加低秩和稀疏的约束,使其满足强对角块结构,为后续的子空间聚类奠定了基础。同时,LRSR能够恢复数据集中受噪声严重污染的数据。LRSR模型在ADMM算法的框架下求解,本文给出了算法的收敛性保证。人脸图像Extended YaleB和运动轨迹Hopkins155数据集上实验结果表明LRSR算法在去除噪声干扰、恢复原始数据、聚类准确率的表现上明显优于现有方法。2.提出一种基于谱间距全局信息和样本间局部距离的相似度矩阵求解方法(Global-Local Affinity matrix Model,GLAM)。在图学习方法中,图的构造(相似度矩阵的构造)揭示数据间的关系,如何构造反映数据类内相似属性和类间差异的相似度矩阵是非常关键的。利用谱间距作为全局约束,在一定程度上能够抵抗噪声的干扰,维持与类别相关的相似度矩阵特征空间的稳定性。因此,本文提出从最大化谱间距的角度去逼近理想对角块结构的相似度矩阵,同时将数据间的局部距离作为正则项来防止谱间距过大而造成相似度矩阵失效。子空间划分的方法与GLAM构造的相似度矩阵相结合,令子空间聚类的准确率有明显的提升。同时,本文还将GLAM方法构造的相似度矩阵成功地应用到基于图的半监督分类任务中,现实公共数据集上实验结果验证了 GLAM算法的有效性。3.提出一种求解核范数优化问题的快速算法(Non-convex Low Rank Represen-tation via Block Coordinate Descent Method,NLRR++)。基于核范数优化的子空间划分方法中,每次迭代都包含时间复杂度很高的奇异值分解,使其很难扩展到大规模数据集。本文在矩阵分解的框架下,通过单位秩矩阵和的方式重新构造非凸低秩模型,并利用块坐标下降法更新变量,使得算法的时间复杂度由O(n3)降低到O(mnd),空间复杂度由O(n2)降低到O(mn)(通常情况下d《m《n)。在此基础上,本文还设计了按一定概率分布值更新内部变量的随机算法,进一步缩短算法的执行时间。算法的每次迭代中只包含“矩阵-向量”乘法,计算简单便于并行化处理。通过精心设计变量中坐标的更新顺序,新算法能更快收敛。同时,给出了NLRR++算法的收敛性分析。考虑到谱聚类算法在大数据集上的不可扩展性,利用非凸模型的特殊形式,提出了更加快速简单的聚类方法。和当前先进的方法相比,NLRR++算法更加准确高效,求解速度比最先进的非凸低秩方法快12倍。
其他文献
<正>节俭或者说"抠",才是晋商真正的气质所在。抠自己,才能赢天下。我深信,新的乔致庸、渠本翘,一定会在恪守本色勇于创新的新晋商中出现。除了"老醯儿",山西人还有一个"九毛
惩戒是一把双刃剑,如何运用好这把宝剑则体现了教育者的大智慧,作为老师,有了惩戒权,也要谨慎使用。这样,才能更好地保障学生与老师的权益,营造出一个欣欣向荣的、和谐宽松的
根据《国家中长期教育改革与发展规划纲要(2010-2020年)》“坚持以人为本、实施全面素质教育”的战略主题,结合我国社会“新常态”发展的时代需要,青少年健康教育尤其是心理
研究了Nb、Cr对再加热取向硅钢铸坯中抑制剂的析出行为及组织的影响。结果表明:在相同的热处理工艺条件下,钢中的Nb通过影响抑制剂的析出行为,导致钢的微观组织形貌及其均匀
20世纪下半叶以来,随着信息技术的迅速发展,人类社会进入了网络时代。网络已经融入到我们生活中的各个领域,譬如Internet,万维网(WWW),通信网络,社会网络,基因调控网络以及电
介绍了国内外掺杂稀土元素的高温钼合金的研究情况.对Y2O3、La2O3、Nd2O3、Sm2O3、Gd2O3五种稀土元素掺入钼丝和未掺入钼丝进行了研究比较.结果表明,掺杂钼丝比未掺杂钼丝具
本研究选取1183名初高中青少年学生进行调查。测量了被试的共情、归属需要以及自我意识(包括公我意识和私我意识)。结果表明:(1)公我意识和私我意识与共情存在显著相关;(2)归
浙江教育出版社出版〈科学〉,八年级下第二章第5节"光合作用",需要做"光合作用"需要光、"光合作用"制造淀粉、"光合作用"需要二氧化碳、"光合作用"需要水、"光合作用"需要叶绿素等一系列
目的:先兆流产(threatened abortion,TA)是早孕期最为常见的疾病之一,近年来,患者妊娠早期发生先兆流产的风险逐年增高,部分先兆流产患者可发展为稽留流产、难免流产等不良妊
目的:以豚鼠哮喘模型为实验对象,研究氯雷他定对哮喘豚鼠气道高反应性、肺泡灌洗液和血中IL-5的表达、EOS计数以及肺组织EOS凋亡延迟状态有无影响。探讨H1受体拮抗剂在哮喘治