论文部分内容阅读
我们提出了一种基于n-gram的大规模中文文档自动聚类方法.该方法将自动聚类首次引入中文文档语义信息组织中,绕开了切词、语法分析等复杂的语言学问题.该研究可应用于网络信息超链的自动生成、信息检索、信息过滤、自动分类训练文档集的构造以及无需词典的交叉语言检索中.论文第一部分论述了自动分类与自动聚类的概念、简要介绍和比较了现有的著名自动分类算法与自动聚类算法.论文第二、三部分是该文的重点.第二部分具体、深入的介绍了什么是n-gram、在进行聚类前所必需的预处理过程和方法、K.M.A聚类算法的原理和步骤、Engrammes系统的功能和使用方法.第三部分则在第二部分的基础上详细描述了实验数据源和实验过程,并通过分类和表格的形式展示了实验所得的全部数据.