高维文本数据聚类算法及并行设计研究

来源 :大连理工大学 | 被引量 : 3次 | 上传用户:wuzhaoan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网高速发展的时代背景下,伴随着各种社交媒体广泛的使用,文本数据量剧增。而文本文档聚类就是一种过滤用户感兴趣信息的有效方法。但由于文本数据具有典型的高维、稀疏的特点,给聚类这种无监督学习任务增加了难点。虽然现有很多改进的文本聚类算法,但在精度及实时性方面仍然不能满足实际应用的需求。因此,本文在该方向进一步做出了努力,提出了一种针对高维稀疏文本数据的并行k-means聚类算法。本文将提出的这种针对高维文本数据的并行k-means聚类算法,称之为pkmeans算法。pkmeans算法试图解决如何准确的对高维稀疏的文本数据进行聚类,从而为数据挖掘、数据分析等任务提供良好的预处理结果。pkmeans算法主要可以分成三个部分:数据降维模块、聚类算法模块以及并行设计模块。pkmeans算法的主要贡献如下:首先,在降维模块中提出了一种基于自编码网络的降维模型SAE来实现特征选择,其目标主要是解决文本数据高维、稀疏的特点,尽可能提升提取文本数据关键字的准确度;其次,在聚类算法模块中提出了一种基于密度和k-means++方法的初始中心点选择方法Density k-means++,这两种方法的结合既考虑了边界点的影响,又兼顾了精度。基于以上两个模块的设计,提高了高维文本数据聚类算法的精度。最后,在并行设计算法模块中,本文通过使用CUDA架构和MPI消息传递接口实现了算法的并行性,进而提升算法的运行速度。最后,本文对提出的pkmeans算法的可行性进行了验证,并在真实数据集上对该算法做了大量的对比实验来测试其算法精度和运行速度。实验结果表明,降维模型SAE很大程度上规避了文本数据高维稀疏的特性,并能够提取到有意义的特征;另外,本文提出的聚类算法在大多数数据集上也表现了其友好性,对比于其他k-means算法的改进算法也具有一定的优势;最后,本文实现的算法并行性,对比于基于CPU运行的算法在运行速度上有了很大的提升,而MPI技术的使用又提升了算法的可移植性。如此,本文提出的pkmeans算法不仅提高了算法的精度也提升了算法的运行速度。
其他文献
江门林业高新技术示范区项目建设目的在于促进林业科技成果转化,推进林业生态建设,促进江门社会经济可持续发展。通过采取政府支持与市场化运作相结合、林业与旅游相衔接、与
<正>(本刊记者/马桂东)10月25日,由山东碧蓝生物科技有限公司(以下简称"碧蓝生物")主办的牧场净化微生态新产品上市发布会暨碧蓝生物P2C分享模式启动大会在山东宝来利来生物
全面分析了三螺杆泵135型新、旧型线的优缺点以及螺杆型面加工铣刀的各种结构特点。列举常年使用的各类典型螺杆铣刀实例,可供不同生产条件之参考。
测定102份宁夏水稻种质资源(23份宁夏本地品种和79份外引品种)籽粒铁的质量分数,分析不同品种籽粒铁的质量分数间的差异及其与粒形性状的相关性,并对水稻籽粒铁的质量分数进行
本文基于2009-2014年30个省级面板数据,构建空间计量模型,采用空间滞后模型、空间误差模型和空间杜宾模型实证分析了交通基础设施对商贸流通业的影响及空间溢出效应。研究发
我国经济的发展,为医疗事业的发展提供了强有力的物质基础。加上我国对医疗事业的支持力度逐年增加,我国的医疗事业取得了巨大的发展,医疗条件得到大幅度地改善和提高。为实
目的探讨护理标识在手术护理风险控制中的应用效果。方法选取2013年1月~2014年1月180例患者实施常规护理为对照组,2014年1月~2015年1月180例患者实施护理标识为观察组。手术
太极拳作为中华民族的文化品牌和武术瑰宝,是我国民族传统文化的宝贵资源,是焦作乃至河南的一张名片,是河南对外开放的一个重要窗口。但目前对太极文化的宣传、推广、传播的
聊城发电厂#1、2炉装配四台50%流量、恒速、电动轴流式送风机,由瑞典ABB公司制造。它具有可转动叶片,通过改变其倾角来调节流量和风压,是一种能在大范围负荷变化下进行调节的
某输电线路在局部短时大风下,三基输电杆塔连环倒塌。针对该安全事故,开展现场勘查、材质试验、有限元仿真计算和倒塔原因分析。分析表明该220 kV输电线路耐张段三基杆塔连环