论文部分内容阅读
在STC算法的基础上,提出一种中文Web文档聚类算法STC—I,用以对检索结果进行在线高效地聚类。STC-I中,将文档集通过去同义词、近义词、相同句子的方法对文档进行降维处理,并通过计算查询关键字与文本的相似度,对参加聚类的文本打分的方法来降低STC的时间复杂度并提高STC聚类准确率。通过对STC-I与STC、AHC、K-Means算法从聚类的准确性和时间复杂度上进行比较,结果表明,STC.I算法在聚类的准确性和时间复杂度方面都较STC、AHC和K-Means算法好。