论文部分内容阅读
随着计算机网络的普及,企业信息化程度不断提高,人们对信息化服务的要求越来越高。在这个信息膨胀的时代,各种电子文本数据急剧增加,占据了网络资源的大部分空间,对于这些文本数据的分析、应用就成为了一个重要的课题。特别是对一些特殊文本(无结构化和半结构化文本)的挖掘分析成为了人们进行文本挖掘的一个难点。聚类技术作为文本数据挖掘中的重要技术之一,其思想是把内容相似度高的文本内容划分为同一类,而不同类之间的文本相似度尽可能的低。
本文首先对文本聚类国内外研究现状进行了回顾,并且详细陈述了文本聚类的相关算法,对常用的聚类算法的优缺点进行了分析总结。K-means算法作为文本聚类算法中一个重要的算法,以其简单,实用性在实际中得到了广泛的应用。尤其是对文本、图像等多种数据的分析,K_means算法发挥了重要作用,并且取得了很多成果。但同时,K-means算法在实际的应用中也有其弊端:k的取值无法确定、初始聚类中心选择的不确定性、孤立点处理等。为了使K-means算法有一个好的起点,初始聚类中心的选择就相当重要。本文对K-means算法的初始聚类中心的选择进行了改进,引用了基于密度和最大距离的初始密度选择方法。在改进算法中,首先对样本数据中可能存在的孤立点进行了检测和处理,其次采用改进方法对初始聚类中心进行了选择,最后完成了算法的主体部分。结果表明,改进的算法在聚类中心选择上取得了成效。最后,将改进的算法应用于一个基于Web新闻聚类模型。该模型首先把从网页抓取的新闻的正文文本保存在数据库中,对其进行文本预处理、分词、特征选取、建立文章的特征向量等文本处理。然后对其特征向量进行聚类,得出聚类中心。最后建立一个文章的向量模型,依次计算其与聚类中心的相似度,把文本内容相似度高的划分为一类。得出聚类结果后,对聚类结果进行了分析。试验结果表明改进的算法与原算法相比较,在文本新闻聚类方面,聚类准确率和完整性都有所提高。