大数据下的谱聚类算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:wuyan425
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域中的重要研究方向。在过去的数十年中,出现了大量聚类算法,其中,谱聚类由于其在非线性可分的数据中的优异表现而被广泛应用。此外,随着互联网的不断发展,网络中产生的数据也越来越多,形成大数据。因此,如何将谱聚类算法应用到大数据中,挖掘其中的有用信息变成十分重要的研究课题。然而,谱聚类算法存在严重的可伸缩性问题,谱聚类需要极高的时间复杂度和极高的空间复杂度来计算和存储相对应的拉普拉斯图和对该图进行特征分解。虽然在过去的二十年中,大量大数据谱聚类算法大幅减少了谱聚类的时间复杂度和空间复杂度,但在大数据问题中,它们仍然需要大量的时间和内存去完成谱聚类任务,特别是当内存不够时,算法就不能运行。这表明在大数据谱聚类问题中,计算瓶颈仍然是一个重要且没被解决的问题。为此,本文提出一种基于矢量量化的大数据谱聚类框架(VQSC),一个简单高效的轻量大数据谱聚类框架,在有限资源情况下的快速解决大数据谱聚类问题。本文主要研究内容可以简单概述如下:(1)本文提出了一种基于近似k-means的快速矢量量化技术。该技术通过对从原始数据中随机采样的样本点实施k-means算法获得一些原型,然后用这些原型去代表原始数据来完成谱聚类运算。此外,本文也分析了近似k-means算法的理论误差。(2)本文提出了一种信息增强的原型相似度计算技术。不同于直接计算原型之间的距离,并用这些距离来进一步生成原型之间的相似度,本文通过原型和样本之间的关系来计算原型之间的相似度,这使得构建的原型拉普拉斯图中包含了样本的信息。(3)本文提供了一种分批快速聚类技术。根据矢量量化的性质,每个数据只需要计算和所有原型的距离,并直接分配到距离最近的原型那一类。不同于现存的大数据谱聚类方法,VQSC只需要在内存中保存原型,然后分批读入数据即可完成聚类。(4)本文为VQSC提供一个扰动分析,分析了原型近似特征向量和目标特征向量的扰动误差,其中原型近似特征向量和目标特征向量分别代表原型拉普拉斯图的特征向量和原始数据集直接构成的拉普拉斯图的特征向量。在八个不同大小的数据集的实验结果表明,本文提出的VQSC能够快速在小内存的情况下完成大数据谱聚类任务,很好地补充和完善了当前大数据谱聚类算法的研究。并且,本文对VQSC所涉的参数进行了实验分析,证明了VQSC所涉及的参数具有较高的稳定性和灵活性,能很好适应大数据谱聚类任务。
其他文献
偏导射流伺服阀主要的结构特点为阀体阀芯部位两端封闭,主要功能为在液压系统中可以将微弱的电控制信号转换为大功率的流量或压力输出信号,它的动态响应快,控制精度高,压力和流量的增益线性度好。但偏导射流阀在使用过程中会受到大范围的、剧烈的温度冲击。温度冲击会直接影响到伺服阀关键零部件和油液性能等变化,在伺服阀上产生复杂的综合作用。偏导射流伺服阀在剧烈温度冲击作用的工作环境下,伺服阀的各项工作指标会呈不同程
学位
医疗信息物理融合系统(Medical Cyber-Physical Systems,MCPS)是一种用于现代医学领域的信息物理融合系统(Cyber-Physical Systems,CPS),在各种疾病的预防和检测中发挥着重要作用。每个MCPS都具备嵌入式控制设备和独立的网络系统,使用物理空间作为物理基础,通过感知设备向网络空间提供感知信息,并接收来自网络空间的控制信息对物理设备进行控制。考虑到医
学位
<正>近年来数字人民币在中国大陆发展迅速,使用场景由向公众派发数字红包、当地零售消费付款到公共服务缴费等,目前试点城市已多达23个,覆盖了全国1/5的人口。为了深化数字人民币的应用,2022年4月,深圳市地方金融监督管理局印发《深圳市扶持金融科技发展若干措施》,
期刊
聚类是无监督学习中一种方法,它可以把数据切分成多个组别,并让较为相似的数据样本分到同一组别内。但是,传统的聚类方法大多是基于单个视角的数据,在多视角数据环境下往往不能取得令人满意的聚类性能。为解决这个问题,便提出了多视角聚类。多视角聚类的目的是整合多个视角数据的信息,获得更加本质的样本关系,进而求解出更加准确的分组。多视角图学习聚类是多视角聚类中的一类方法,该类方法会先学习出一个相似度图,并利用该
学位
从观测数据中推断出变量之间的因果关系是当今数据科学研究的热点。随着科学技术的不断进步,金融经济、社交网络、智慧医疗、大数据智慧城市等领域通过互联网交互产生了海量而复杂的数据。如何从这些观测数据中有效地挖掘出有价值的信息,探索数据中潜在的因果机制在科学研究的可解释性和辅助决策等方面都起着重要作用,它促进了很多科学领域的研究进展,如生物医学、社交网络、金融领域等。近年来,出现了很多从观测数据进行因果结
学位
传统互联网在服务质量、资源利用率、管控能力和传输效率等方面暴露出诸多弊端,智融标识网络通过全网多空间、多维度资源的智慧融合实现网络资源的灵活分配和个性化服务的按需供给,为新型网络架构提供一种可行的研究方向。在智融标识网络中,通过引入控制器集群可以有效解决单一控制器存在的可扩展性和可靠性问题。但当控制器与交换机的映射关系是静态配置时,波动的网络流量会导致集群负载分布不均,部分控制器可能过载以及响应时
学位
<正>数字人民币搭载以区块链作为底层技术的智能合约,是最为重要的创新之一,随着数字人民币试点的不断推进,智能合约的应用场景也越来越广泛。智能合约具有信用塑造功能,央行借助智能合约可以巩固货币的国家信用,提升履行职能的效率。文章通过梳理货币智能合约的技术架构与运行逻辑,发现治理货币智能合约存在的难题,据此从监管模式、监管重点、监管科技等方面提出对策,以提升数字人民币的治理水平。
期刊
行人重识别(Person re-identification)是一种利用计算机视觉技术进行行人图像检索的技术。随着人工智能技术的兴起,行人重识别技术得到了极大的发展。基于神经网络的行人重识别技术,需要先从各个摄像头中收集大量的行人图像,并对大量的行人图像进行标注。随后利用已标注的行人图像进行深度网络的学习,最终获得一个行人图像的检索器。但这类方法始终面临着各种困难:深度网络的学习需要大量的训练样本
学位
光频率梳由一系列离散等间距的周期脉冲序列组成,由于其频谱谱线数量多,而且谱线频率间隔相同,能够精准的测量未知频率,在激光雷达、光通信、天文学中有着大量应用。在正常色散区基于非线性Kerr效应产生的光频率梳具有平坦性好,泵浦效率高,相干性好等特点。基于非线性Kerr效应产生光频率梳主要有基于无腔光纤/光波导或微环谐振腔两种方式,本文研究了双频激光泵浦无腔非线性光波导基于超连续谱展宽产生光频率梳,以及
学位
离散事件系统是指由离散的事件触发而引起状态转移的一类动态系统模型。了解当前的运行状态对系统安全尤为重要,状态估计的可测性研究是离散事件系统的一个重要研究方向,并被成功应用于自动控制系统。在现实生活中,系统的状态和事件往往具有模糊和不确定的主观性,模糊集引入到自动机为模糊离散事件系统奠定理论基础,在生物医学和自动控制系统中具有广泛应用。本文研究了模糊离散事件系统下的当前状态和初始状态的可测性问题。针
学位