论文部分内容阅读
聚类作为一种知识发现的重要方法,它广泛地与中文信息处理技术相结合,应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘中的有效应用,它根据文本数据的不同特征,按照文本间的相似性,将其划分为不同的文本簇。其目的是要使同一类别的文本间的相似度尽可能大,而不同类别的文本间的相似度尽可能的小。整个聚类过程无需指导,事先对数据结构未知,是一种典型的无监督分类,因此,最终的聚类结果需要进行有效性验证和质量评价。由于文本是一个特殊的数据对象,目前研究中对文本聚类分析结果的评价机制不统一,尚无得到普遍认可的科学评价机制及与之相关的深入研究。在聚类改进方法中,绝大多数研究者投入到聚类算法研究,却忽略了聚类结果带来的信息。虽然经过众多研究者努力,中文文本聚类研究取得了一定的进展,但仍然存在很多问题亟待解决,尤其在文本聚类评价及其改进方面。本文首先对文本聚类和文本分类技术进行了简单的介绍,比较了各自的优缺点。再在研究文本聚类过程的基础上,分析了可能影响聚类结果的各个因素,特别对文本表示模型、文本相似度计算方法和文本聚类算法选择三方面因素进行了较详细的论述。然后,通过回顾已有的文本聚类评价指标,本文分析了其应用特性和优缺点,针对现有评价方法存在的问题,特别是基于人工标注的评价指标之应用局限性,论文提出了一种新的基于吻合度的文本聚类结果评价方法。该评价方法从聚类结果的稳定性角度出发,通过比较前后聚类结果的吻合程度来判断聚类效果。同基于人工标注的评价方法相比,方法不仅有效避免了人工标注类别环节,而且能正确评价不同的文本聚类结果。实验结果验证了方法的有效性和应用性。受聚类评价过程的启发,本文尝试从聚类结果出发,结合分类算法对数据集重新分类,提出了一种基于迭代分类的聚类结果改进方法。该方法巧妙地结合了聚类和分类两种独立的开采方法,使其相得益彰,将聚类结果的优化过渡到分类层面。通过引入迭代分类思想,使得最终聚类结果在单一聚类算法得到的初始结果基础上有了较大的改善,且适用于不同的聚类算法,具有良好的普适性。本文设计了空间数据聚类和文本数据聚类实验,其测试结果验证了方法的正确性。