论文部分内容阅读
在日常生活中我们所接触的许多信息都是以文本存储的形式进行传播的,如博客、微博、网页等。由于大数据时代的到来,让Internet上的文本数据量呈几何指数递增。这些文本数据中绝大部分都是以非结构化的形式存储的,但它们却包含着很多有用的潜在信息。如何从这些文本数据中迅速并高效的获取有用的潜在信息,就需要使用数据挖掘技术。聚类是指通过某种规则来发现数据集中的潜在分组,且这些分组中的数据对象拥有较高的相似度。可以说聚类是数据挖掘的重要技术手段,也是一种从数据集中获取潜在信息的无监督方法,目前在很多领域中都有使用,包括异常检测、人工智能和计算机视觉等。而作为聚类分析的重要组成部分——文本聚类,己经能够使用多种聚类方法。K-medoids作为一种采用启发式的划分方法,由于其实现简单、容易理解且受异常值的影响较小,目前已经应用在很多实际应用中并取得较好的效果。不过传统的K-medoids算法具有一些局限性,比如初始簇心的随机选取会影响聚类结果。本文的主要研究内容为:(1)针对密度峰值聚类算法(DPC)的三个缺陷——计算复杂度大、依赖截断间隔(9((8)和需要人工决策簇心,提出了基于残差和密度网格的簇心自确认聚类算法(REDGSC)。该算法先利用网格对象替换数据对象,然后计算网格对象的距离值和密度值,最后采用残差分析自动决策出簇心。人工数据集和UCI真实数据集的实验结果证明,该算法能够较好地选取初始簇心和确定簇心数量,且聚类效果比DPC算法更好。(2)针对K-medoids算法的聚类结果随K值和初始簇心改变而变化的问题,提出了基于密度权重Canopy的改进K-medoids算法(DWCK-medoids)。该算法先计算每个样本对象的密度,选择密度最大的作为首个簇心,然后移除属于该簇心的所有样本对象,最后根据每个样本对象的权重,选择出下一个簇心,直到数据集为空。UCI真实数据集和人工数据集的实验结果表明,该算法能够较好地确定类簇数和选择合理的初始簇心,并能较好地提高聚类算法的精度和稳定性。(3)针对传统文本聚类忽略特征词之间的语义关系和数据高维的问题,提出了一种结合DWCK-medoids算法和频繁词集的文本聚类方法(DCCFIDWCK)。该方法先利用特征选择来过滤掉多余的特征项;然后从中挖掘出所需要的频繁词集;接着利用频繁词集来创建文本表示模型,再采用欧式距离来计算相似度;最后利用DWCK-medoids算法进行聚类操作,并对聚类结果进行主题描述。实验结果验证该算法在文本聚类上可以得到较好的聚类效果。