论文部分内容阅读
近年来,我们可以很容易地从Internet、数字图书馆、新闻机构和公司内部网上获得数目惊人的文本文档。于是,人们对发展能够帮助用户有效地导航、总结和组织这些文本信息技术的兴趣越来越强。快速和高质量的文本聚类技术在实现这个目标过程中扮演了重要的角色。通过将大量信息组织成少数有意义的簇,这种技术能够提供导航/浏览机制,或者,通过聚类驱动的降维或权值调整来极大地改善检索性能。因此,文本聚类研究成为当前国际上数据挖掘的一个重要课题,国内中文文本聚类的研究正处于初期,还存在许多问题亟待解决。本文我们对此进行了研究。 首先,我们介绍了文本聚类的产生背景和发展现状,并对本课题的提出及研究内容、目标进行了论述。 然后,我们设计了一个中文文本聚类模型CTCM(Chinese Text Clustering Model),并针对模型中涉及到的特征表示、特征提取、特征向量调整和聚类算法等问题进行了研究。 其次,我们着重研究了文本聚类算法。对现有聚类算法进行了仔细分析,给出了两个文本聚类算法:EK算法和DBTC算法。对这两种算法进行了详细介绍,并分析了聚类实验的结果。 最后,讨论了中文文本聚类的一个应用,描述了一个电子邮件分类和过滤系统的设计。 本文获得的主要结果:提出了一个中文文本聚类模型,提出一种选取初始聚类中心的中文文本聚类算法和一种能发现任意形状簇的DBTC聚类方法。