基于Global K-means的多维数据聚类算法研究及其GPU加速

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wpaghq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们生产生活的越来越繁杂,使得数据量高速增加,数据挖掘技术在人们的生活中起着越来越重要的作用。而聚类分析作为数据挖掘的一种重要技术,对各种数据的分析起着至关重要的作用,本文主要就多维数据的聚类算法进行了研究,提出了两种针对多维数据的聚类算法。同时为了解决海量数据的处理时间问题,进行了相关算法的GPU加速研究。本文的主要研究工作阐述如下:针对多维数据聚类过程数据的每个属性对聚类所起的作用不同,本文提出了一种基于属性权重的Global K-means算法,即Global weighted K-means(GWKM)算法。GWKM算法结合了LAW K-means(LKM)算法的属性权重技术和Global K-means(GKM)算法的聚类框架,在GKM算法每次进行聚类中心的选取过程中,引入LAW K-means算法,不仅求得了聚类中心,而且确定了聚类属性权重,最终得到了更加准确和稳定的聚类结果。但当遇到一些数据,其维度的稀疏性较大,将会给多维数据的聚类带来很大问题。为了能够有效地解决稀疏多维数据所带来的聚类问题,本文提出了一种新的基于熵权重的Global K-means算法,即Global Entropy weighted K-means(GEWKM)算法.GEWKM算法结合了Entropy Weighting K-means(EWKM)算法的熵权重和Global K-means(GKM)算法的聚类框架,在GKM算法每次进行聚类中心的选取过程中,引入了Entropy Weighting K-means算法,采用更加合理的熵权重计算属性权重值,得到了更为理想的结果。实验表明,所提出的算法是稳定的,能够有效地解决数据稀疏性所带来的聚类问题。由于本文提出的GWKM算法和GEWKM算法都是基于Global K-means算法框架,但是由于Global K-means算法的计算复杂度较大,限制了其在海量数据上的应用,所以为了解决Global K-means算法计算复杂度大,不能满足处理大规模数据挖掘问题的时间要求,本文提出了基于GPU的并行Global K-means算法-PGKM_Mix算法,该算法并行了其中最为耗时的聚类中心的选取,为了更加充分地挖掘PGKM_Mix算法的数据并行性,进一步提出了PGKM IRG算法,该算法引入了非规则归约方法来并行聚类中心的更新。并着重描述了在GPU上实现这两种并行算法的设计方案和操作细节。通过人工数据集和UCI数据集上进行的实验,验证了并行算法在不影响性能的基础上实现了很高的加速比,说明了提出的并行算法的有效性。本文工作得到西安电子科技大学基本科研业务费资助项目(JY10000902033)资助。
其他文献
本论文属于电磁检测技术范畴,研究之目的在于:通过高频电磁激励手段,配合新颖的电磁传感器设计,实现低电导率物质的物理参数实时测量,如两相流相含率测量、导电液体的液位测量。电
林区火焰检测对保护我国森林资源具有重要的意义。随着科学技术的发展,林区火灾检测正朝着智能化方向发展。视频图像处理技术的应用扩大了火焰检测的范围,提高了火灾检测的精度
在为某变频器矢量控制模块的设计中,针对光电编码器带来的安装困难、费用过高等问题确定了高性能无速度传感器的矢量控制系统方案,根据此方案展开的设计研究,对促进矢量控制系统的发展有重要意义。本文首先介绍了异步电机的数学模型与矢量控制的原理,在此基础上得出结合转子磁场定向与空间电压矢量(SVPWM)技术的异步电机矢量控制系统原理框图。为得到矢量控制系统中所需的转速信息,分析了几种转速辨识方案的优缺点后将模
随着计算机科学与技术的发展,机器视觉和图像处理技术已成为热门研究领域,它在工业生产中的应用越来越广泛。在产业全球化的时代,许多民营企业开始开拓全球化市场,这时产品的
随着网络与信息安全技术的蓬勃发展,数字隐写作为信息安全的重要分支引起了广泛关注,近年来隐写的分析技术也已成为该领域中的热点研究问题。随着隐写分析算法的不断涌现,针
在实际系统中,常常存在各种不确定的问题,如参数化不确定和非参数化不确定,其中的参数化不确定又可以分为线性参数化不确定和非线性参数化不确定,线性参数化不确定相关的自适
信息隐藏技术是指在不对载体信号产生可感知的过分影响前提下,将额外信息嵌入载体文件中实现隐蔽通信的技术。作为信息安全领域的一个重要组成部分,信息隐藏技术已经成为该领
近年来,多智能体的协作控制成为控制领域一个研究热点,受到来自多个领域的研究者越来越多的重视。本文以双足机器人为智能体研究多个机器人的协作控制问题。首先介绍了智能双
工频熔炼炉熔炼废杂铜的过程中会产生大量废烟气。为防止排放到空气中污染环境,烟气通过顶部管道由引风机抽入除尘袋收尘。从经济角度考虑,引风机的转速(抽气量)应与管道中的
电力行业是国家发展的重要基础能源产业,也是国家经济的第一基础产业,控制着国家的命脉。随着电网规模不断扩大,运行条件日益复杂,电网数据采集范围和频率不断增加,如何合理运用电力大数据,提高电网数据利用率,为电网运行的安全性和可靠性提供理论依据,成为了一个新的研究热点。由于电力数据具有数据量大、数据类型多、价值密度低、处理速度快的特征,如何高效深度地对其进行挖掘分析,提取有价值的信息,为实际问题服务,是
学位