论文部分内容阅读
为了降低半监督聚类算法的数据稀疏度,借鉴seeds集思想,提出了2种基于潜在狄利克雷分配(LDA)的半监督文本聚类算法,Seeded-LDA和Constrained-LDA.Seeded-LDA算法将已知的少量文本标签转化为seeds集信息,根据seeds集信息初始化模型参数;Constrained-LDA在此基础上在聚类过程中限制有标签文本的主题分布,使其与标签相一致.在真实数据集上的实验结果表明,该算法比基于K均值聚类算法衍生的半监督文本聚类算法具有更好的聚类结果和更低的数据稀疏度.