论文部分内容阅读
近几年来,随着网络的发展,信息迅猛增多,在浩瀚的信息海洋中如何快速而有效地获得所需要的信息,是困扰网上用户的难题。对于信息资源的一个主要形式——文本,人们迫切需要能够从中快速、有效地发现资源和知识的工具。通过将大量信息组织成少数有意义的簇,文本挖掘技术在信息检索、邮件过滤和网页分类等领域有着广泛的应用。因此,文本聚类研究成为当前国际上数据挖掘的一个重要课题。本文针对文本聚类中的两个方面的问题进行了研究。一个是文本预处理过程中的特征词权重的计算和特征集缩减问题,另一个是对基于划分的K-Means算法的初始中心选取问题进行了研究。首先,本文研究了文本预处理中的特征项权重的计算和特征集的缩减问题。网页中的标签对类别的贡献较大,因此在权重计算中引入网页的结构特征。通常文档的特征向量是超高维稀疏向量。这种向量影响聚类速度,并且使任意两个文档特征向量之间的相似度都倾向于一个常数。本文研究了特征集的缩减问题,通过实验验证了聚类效果随着特征数的增加而逐渐改善,当特征数继续增加时,聚类效果反而呈现略微的下降趋势。此外,本文对K-Means算法中的仞始聚类中心的选择进行了重点分析和讨论。针对其初值选取过于随机从而导致聚类结果不理想的缺点,采用最大最小距离法结合抽样技术代替传统的随机选择初始中心点的方法。并根据该新的初始中新选择方法得到一个基于最大最小距离的文档聚类算法。本文对已人工分类的网页和公安网网页进行了有关实验,通过比较K-Means算法和基于最大最小距离的文档聚类算法,发现基于最大最小距离法选取的初始聚类中心比较分散,具有较好的代表性,因此聚类结果较传统K-Means算法更为稳定,准确率更高。