论文部分内容阅读
文本是信息检索领域中数据的基本表示形式。如何从大量文本数据中分析和提取出有用信息,业已成为数据挖掘一个日益流行而且重要的研究课题。文本数据用向量空间模型表示时,由此构造出的文本空间通常具有高维性。在高维空间中,随着维数的增加,数据变得越来越稀疏,造成点与点之间的距离度量失去意义,从而降低了数据簇在高维空间的存在机率,使聚类算法效率下降。因此,针对高维文本数据提出有效的聚类算法具有实际意义。
本文着重研究了文本聚类的相关内容,所开展的研究工作主要有:
首先,本文深入研究文本聚类的相关理论和关键技术,包括分词、去除停用词操作、文本表示、权重及相似度计算等,为后文的聚类实践打下坚实的基础。
其次,本文对文本聚类存在高维稀疏的问题进行分析,重点分析了高维性对文本聚类效果的影响,并对目前的降维技术进行总结,在简单介绍流形学习算法思路的同时对其优点进行简要概括。
再次,针对文本聚类存在的问题,本文提出半定嵌入聚类算法(Semidefinite Embedding Clustering,SDE-C),算法思想是:首先利用半定嵌入算法对原始文本数据进行非线性维数约简,根据其数据分布找出高维数据中有意义的低维核结构,然后在低维核空间中进行核聚类分析,最终达到降低文本特征维数和提高聚类质量的目的。在公共数据集上的测试实验和实际中文文本数据集的验证实验结果均表明,该算法是可行的,具有较好的文本聚类质量。
最后,针对新提出的半定嵌入文本聚类算法存在计算复杂度较高、计算速度较慢这一缺陷,本文提出一种基于改进ISDE的聚类算法(Improved-lSDEC)。首先利用最大最小规则对原ISDE(landmark SDE)的标志点选取方式进行改进,以保证算法的稳定性;接着,在保持局部等距和最大化点对间距离和的约束下,通过半定规划求出标志核矩阵,利用标志核矩阵得到高维数据空间的低维嵌入核矩阵,以实现数据非线性降维处理及删减文本特征中的冗余信息,最后在低维核结构中利用核聚类算法对文本进行聚类分析。实验结果表明该算法具有较好的稳定性,在具有和半定嵌入聚类算法相当的聚类质量的同时,聚类速度明显提高。