论文部分内容阅读
在互联网高速发展的时代背景下,伴随着各种社交媒体广泛的使用,文本数据量剧增。而文本文档聚类就是一种过滤用户感兴趣信息的有效方法。但由于文本数据具有典型的高维、稀疏的特点,给聚类这种无监督学习任务增加了难点。虽然现有很多改进的文本聚类算法,但在精度及实时性方面仍然不能满足实际应用的需求。因此,本文在该方向进一步做出了努力,提出了一种针对高维稀疏文本数据的并行k-means聚类算法。本文将提出的这种针对高维文本数据的并行k-means聚类算法,称之为pkmeans算法。pkmeans算法试图解决如何准确的对高维稀疏的文本数据进行聚类,从而为数据挖掘、数据分析等任务提供良好的预处理结果。pkmeans算法主要可以分成三个部分:数据降维模块、聚类算法模块以及并行设计模块。pkmeans算法的主要贡献如下:首先,在降维模块中提出了一种基于自编码网络的降维模型SAE来实现特征选择,其目标主要是解决文本数据高维、稀疏的特点,尽可能提升提取文本数据关键字的准确度;其次,在聚类算法模块中提出了一种基于密度和k-means++方法的初始中心点选择方法Density k-means++,这两种方法的结合既考虑了边界点的影响,又兼顾了精度。基于以上两个模块的设计,提高了高维文本数据聚类算法的精度。最后,在并行设计算法模块中,本文通过使用CUDA架构和MPI消息传递接口实现了算法的并行性,进而提升算法的运行速度。最后,本文对提出的pkmeans算法的可行性进行了验证,并在真实数据集上对该算法做了大量的对比实验来测试其算法精度和运行速度。实验结果表明,降维模型SAE很大程度上规避了文本数据高维稀疏的特性,并能够提取到有意义的特征;另外,本文提出的聚类算法在大多数数据集上也表现了其友好性,对比于其他k-means算法的改进算法也具有一定的优势;最后,本文实现的算法并行性,对比于基于CPU运行的算法在运行速度上有了很大的提升,而MPI技术的使用又提升了算法的可移植性。如此,本文提出的pkmeans算法不仅提高了算法的精度也提升了算法的运行速度。