基于Nyström扩展的谱聚类算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:tushudasha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析就是将数据样本进行分组的过程,它的目标就是根据数据样本的结构特征提取数据集中隐藏的信息,从而对数据进行合理的划分。聚类分析已经成为数据挖掘和机器学习领域中一种非常有效的工具之一。  谱聚类作为聚类分析一种新兴的分支在近十年来得到了巨大的关注与发展。谱聚类的成功不仅仅是因为它本身简单易实现,而且它可以将数据集从原始空间转换到低维的特征空间,使原始空间的数据变成线性可分,此时便可使用传统聚类算法在新的特征空间中进行聚类。此外,研究者对谱聚类的喜爱还因为它有着深厚的理论基础,并与许多领域有着千丝万缕的关系,这使得谱聚类得到越来越多的应用。但是,由于谱聚类在执行过程中需要存储整个相似度矩阵并进行特征分解,需要消耗大量的时空开销,这使得谱聚类在大规模数据中的实用性很低。  为了有效降低谱聚类算法的复杂度,近年来人们提出了很多有效的方法。其中,最优影响力的是Nystr(o)m扩展技术,它通过一小部分抽样的数据来逼近原始数据的特征空间,有效地解决了大规模数据的时间和空间开销的问题。抽样算法是Nystr(o)m扩展中最重要的方面。  在本文中,我们首先对谱聚类算法近年来的研究现状进行了总结,并重点讨论了Nystr(o)m扩展应用于大规模谱聚类中的抽样算法。当前已存在很多比较成功的抽样算法,但这些算法都是基于矩阵逼近误差的理论分析,目前还没有关于抽样集对聚类效果的影响方面的研究。本文认为矩阵逼近对于聚类效果没有直接的影响,通过引入抽样集预测能力这一概念,利用标记点预测未抽样点的类别标签,通过损失分析得到一种增量的抽样算法,从而回答抽样集对聚类效果影响这一问题。  实验进一步验证了本文提出的增量抽样算法的有效性,结果表明,本文算法在众多的聚类任务上都能给出优于已存在抽样算法的效果,同时,它的复杂度也没有提高很多。
其他文献
随着计算机技术的发展和网络应用的深入,网络安全受到的威胁日益严重,尤其是恶意代码(计算机病毒、木马、网络蠕虫等)的泛滥对网络应用造成了很大的破坏。在这些恶意代码中,
随着计算机的普及和现代网络技术的发展,文档在线阅读和共享已经成为现代社会人们获取知识的一种普遍途径。作为对传统出版物的重要补充形式,文档的在线阅读以及下载为人们的
无线传感器网络被应用到越来越多的领域,事件监测是其重要应用之一。模式查询系统是实现事件监测的重要手段之一。由于传感器节点存在诸多限制,本文对模式查询中的模式数据分
利用Java字节码文件中的属性,本文提出了一种用于Java程序优化的方法。该方法利用前置改良同步逃逸分析算法,将待优化Java程序中冗余同步操作对象找出,然后将这些信息通过标
随着社会网络的飞速发展,越来越多的人们投入到这场新的社交盛宴里,他们通过社会网络沟通交流、分享信息,其中沉淀下来的社会网络关系和用户个人信息,具有非常重要的商业价值
太赫兹(THz)波是指0.1~10 THz频段之间的电磁波,它在电磁波谱中位于微波和红外光之间。低频太赫兹波是指频率范围在0.1~0.3 THz之间。近年来,由于太赫兹波在材料、通信、成像和国
多处理器系统中,故障诊断是一个通过相互测试来识别出系统中的故障处理器的过程,在保障系统可靠度方面起到相对大的作用,并且被许多学者所研究。在1976年,Prepara et al.等人提出
随着互联网上的压缩文件数量越来越多,涉及秘密信息的加密压缩文件随着人们信息安全意识的增强在不断增多,因此,加密压缩文件的口令恢复对信息安全有至关重要的意义。目前,互联网主流的压缩软件有WinRAR(RAR3和RAR5)、WinZip、7-Zip三种,它们对信息的加密主要以SHA-1、SHA-256算法为核心,并且以AES-128、AES-256以及CRC32等算法作为校验加密来提高安全性,增强破译
学位
摘要:在无线Mesh网络中,网关负载均衡性成为无线Mesh网络性能的“瓶颈”,网关部署策略及性能优化对无线Mesh网的管理和高效运行有重大的战略意义。本文,我们围绕网关负载均衡
由于协同发音的影响,自动语音识别系统的性能会受到影响。已有的研究表明结合发音信息可以提高语音识别系统的性能,但是发音信息在话音环境中并不容易得到,因此语音反演被提了出