基于GPU并行的K-MEANS算法研究及其在文本聚类的应用

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:helppeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入大数据时代以来,互联网每天都会产生海量的数据,其中大部分的数据都是以文本的形式存储。文本挖掘是数据挖掘的一个重要分支,它通过文本聚类的方式来挖掘文本数据,从海量数据中挖掘出有价值的信息。目前有多种聚类算法可以应用于文本聚类,其中K-means算法是一种经典的聚类算法,它的优点是收敛快、易于实现,因此在数据挖掘中被广泛的应用。当聚类的数据量过大或者数据维度过高时,传统的K-means算法的效率会受到影响。所以如何提高K-means算法的运行速度成为一个新的研究热点。本文系统地研究了文本聚类和GPU编程的基本理论,分析了传统的K-means算法所存在的缺陷,设计出了一种可以提高K-means算法速度和精度的基于GPU的并行K-means算法。该算法的思想是将K-means算法流程中含有并行计算的步骤放入GPU中运行,使用CUDA并行编程架构将K-means算法中每个数据点到簇心的距离计算由并行计算来替代传统的串行计算,同时通过数据点的初始距离值来选择初始簇心,从而避免传统K-means算法随机选取簇心导致聚类产生局部最优解的问题。最后设计了基于并行K-means算法的文本聚类系统和相关测试。测试结果显示,使用GeForceGTX860M的GPU,与基于CPU的K-means算法相比,基于GPU的并行K-means算法对不同的数据集进行聚类的加速比可以达到9至16倍,聚类精度平均可增加9%。在文本聚类系统中基于GPU的并行K-means算法也能够提高系统的聚类速度与精度,具有一定的实用价值。
其他文献
重庆电厂烟气脱硫是利用德国政府贷款的示范工程项目之一。文章对参加本次涉外谈判工作的认识。
根据生活垃圾焚烧发电行业特点,结合国务院和环保部新发布的条例和办法,受企业委托,监测单位对南京市某垃圾焚烧发电项目进行环保自验收工作,以此为案例,分析自验收工作中的重点,
随着人们环保意识的不断增加,生物质通过加热从而合成环保的荧光碳纳米粒子成为一种新的研究方向,因此对基于生物质花生皮的碳量子点制备及表征进行研究。在研究过程中,通过
我国经济在经过高速增长之后逐渐进入到了新常态中,在这种背景下我国企业所面临的环境发生了变化,这就要求企业要依据市场形势进行战略的制定,对内部各项规章制度进行完善,以
介绍了控制器局域网——CAN的协议以及CAN总线的特点,分析了汽车网络技术的发展趋势。鉴于CAN网络技术在国内汽车上尚无应用的现状,以汽车舒适系统为例,提出了CAN网络系统在汽车
依法治国的基本内涵体现为法律至上、法制健全、立法民主、依法行政、司法公正、保障权利等六个方面。作为一个后发现代化国家,中国要实行依法治国,必须依靠政治权威力量的强制
废水的回用,对于充分利用水资源是一个很好的途径。本文就此问题,对国外的废水回用技术动态,特别是中道水的利用,作了一定的介绍。
创新教育是以开发创新性思维为核心、以培养创新性人才为基本价值取向的教育。随着信息时代与经济全球化进程的加快,国际语言交流能力已经成为二十一世纪的大学生迎接带来的
<正> 一、概述N75-90型50MW 汽轮机与其轴向位移保护装置均为同一工厂生产。由于这套轴向位移保护装置在工作原理,抗干扰能力等方面都存在严重问题,其关键部件晶闸管动作不可
请各省市区负责同志注意:如果你们同意的话,就把这篇文章印发一切农业合作社,以供参考,并且仿照办理。要知道,阳谷县是打虎英雄武松的故乡,可是这一带没 Please be respons
期刊