论文部分内容阅读
特征选择在文本聚类中起着至关重要的作用,将产生式模型LatentDirichletAllocation(LDA)引入基于K.means算法的文本聚类中,通过提取特征与隐含主题的关系进行特征选择。在第2届中文倾向性分析评测的语料上的实验结果表明。当选择2%的特征时,相对于单词贡献度(TC,TermContribution)方法的纯度和F值分别提高了0.15和0.16,相对于LDA直接得到文本与主题的关系的实验结果的纯度和F值分别提高了0.14和0.13。