论文部分内容阅读
根据文本对象数据的高维性,稀疏性的特点,提出一种基于信息粒度原理的文本聚类方法。首先在给出文本的稀疏特征,文本的稀疏特征向量,文本的稀疏相似度,等价关系隶属度,广义的等价关系等定义的基础上,利用信息粒度原理生成初始聚类,然后提出并理论推导类间相似度的计算方法,进行类的归并。该算法聚类过程不依赖于输入样本的排列顺序,文本数据的有效压缩提高了算法的执行效率。