论文部分内容阅读
潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)是一种用来分析大规模文档的概率主题模型,它从文档的单词表示中抽取出语义相关的主题集合,将文档从单词空间变换到主题空间,得到文档在低维主题空间中的表达。然而LDA的使用者往往会遇到两个问题:一是公用词和停用词几乎占据了所有的主题,LDA的主题分布向高频词倾斜,能够代表主题的关键词被少量的高频词掩盖,从而导致较差的主题可解释性;二是如何改善基于主题特征的低维空间表示,以提高检索、聚类和分类准确率。针对这两个问题,我们从连续特征、非对称先验和稀疏约束这三个方面对LDA进行分析。LDA使用离散的词频特征作为输入,假设语料库中单词的重要程度只与词频相关。连续特征考虑不同位置单词的区别,并给予在部分文档中出现频率高而在语料库的其它文档中出现频率低的单词一个较高的值,而给予在整个语料库所有文档中出现频率都很高的单词一个较低的值。停用词和公用词的特征值得到降低,使得主题分布中这些词的概率值变小,得到连贯的主题表示。因为公用词对LDA参数推理和估计也有一部分贡献,所以连续特征对改善主题空间低维表示的效果并不是十分显著。LDA的先验通常启发性地设定为对称的固定值,然而,利用每次迭代得到的主题信息去估计先验将会更加接近于真实值。对称先验使公用词和停用词以相同的可能性分配给所有的主题,而非对称先验会使停用词以较大的可能性分配给有较高先验的主题,让停用词集中出现在少数几个主题中。在模型的训练过程中,通过对先验的学习,提高了模型的后验概率,使主题特征的低维空间表示更加精确。通常越稀疏的信息就能越清晰的反映出它所表示的意义,停用词和公用词往往出现在多个主题中,它们的主题表示有较低的稀疏度,而一些反映主题意义的关键词的主题表示则有较高的稀疏度。在模型参数估计和推理的过程中增加稀疏限定,去鼓励那些有较高主题稀疏度的单词,惩罚有较低主题稀疏度的单词。从而解决LDA中停用词和公用词的问题,并改善主题特征的低维空间表示。本文在LDA模型的基础上,围绕文本数据,以连续特征、非对称先验和稀疏约束为出发点,建立能融和这三种因素的概率产生式图模型以及因子图,提出改进的消息传递算法并对它们进行综合性的评价。结果表明,连续特征的LDA模型通过有效的移除停用词和公用词提高了主题分布的可解释性,非对称先验在主题可解释性、文档分类以及聚类准确率等几个标准上都有所改进,稀疏限定也提高了整体性能。