论文部分内容阅读
潜在狄利克雷分配(LDA)是一种流行的非监督式降维工具,被广泛的应用于文本挖掘和信息检索领域。消息传递算法在效率和准确率上都明显优于LDA模型的其他近似推理算法。本文提出稀疏限定的消息传递算法,采用基于L1范数和L2范数的方法度量向量的稀疏度,并在迭代过程中投影单词在主题上的概率分布到稀疏空间,从而得到更加准确的单词语义表示。实验结果表明提出的稀疏消息传递算法在文本聚类和分类准确率上胜过了消息传递,吉布斯采样以及非负矩阵分解算法。