论文部分内容阅读
如今,主题模型已经被广泛应用于文本分析中。一些已经问世的主题模型,比如基于概率的隐式语义分析法(Probabilistic Latent Semantic Analysis,PLSA)以及它的一些改良模型,在挖掘文本的隐式主题结构上取得了重大成功。大部分的改良模型出于不同的目的均在文本-主题分布上进行了加强。然而,这些模型并没有在主题-词语分布上做出改变。但是主题-词语分布同样对主题模型的效果起着重要的作用,因此只对文本-主题分布进行加强而忽视主题-词语分布的方法具有一定的局限性。 本论文着眼于提高主题模型中主题-词语分布的多样性与合理性,提出了正交化主题模型(Orthogonalized Topic Model,OTM)。具体来讲,OTM在主题模型中的主题-词语分布上加入了正交化的限制。同时,为了求解OTM,论文还提出了一种新颖的基于最大期望(Expectation-Maximization,EM)算法与牛顿-拉弗森方法(Newton-Raphson Method)的模型拟合算法。在两个真实语料数据集上的实验结果表明,与其他主题模型相比,OTM可以挖掘出更加多样化、合理的并且无重复意义的主题。在文本分类任务上的量化的评价结果也表明了OTM的分类准确率超越了其他的基线方法,证明了主题正交化限制的重要作用。