论文部分内容阅读
互联网的高速发展导致微博、新闻和博客等网络数据呈现爆炸式的增长。管理并利用这些海量级数据成为一大难题,主题模型是解决该难题的有效方法之一。主题模型通过对文档进行聚类,将文档归纳为几个简单的主题,使得人们可以快速地从各类文档集中找到自己所需要的信息。传统主题模型需要给定聚类的数量,即对于一个语料集,模型究竟该将其聚为多少类。通常我们需要不断的尝试各种数量,虽然基于评价标准可以从中寻找到最佳的聚类数量,但是这种主观判断的方法存在较大的偶然性。分层狄利克雷过程(Hierarchical Dirichlet Process,HDP)模型是传统主题模型在无参方向的一个衍生,它是一种可用于分析大量文本数据的概率主题模型。同时它也是一种贝叶斯无参模型(Bayesian non-parametric model,BNP),主要用于解决传统概率主题模型中聚类数目的问题。HDP模型的提出主要依赖于狄利克雷过程(Dirichlet Process,DP)无限维度的特点,令数据在训练的过程中发现其隐藏的主题,该主题可以是当前已发现的主题,也可以是未发现的主题,进而实现无参主题模型中主题的动态变化。传统无参HDP主题模型的参数估计与近似推理主要依赖于使用中国餐馆过程构造的吉布斯采样算法。该算法基于马尔科夫链蒙特卡洛,通过大量采样样本去近似后验分布。然而该算法存在较强的随机性,且无法保证消息的完整性。针对传统算法的缺点,本文提出使用消息传递算法来理解HDP模型。通过分析HDP模型对应的因子图模型中因子之间的联系,实现模型中后验概率近似推理的分布化与局部化。基于消息传递算法理论,本文提出了两种适用于HDP模型的消息传递算法:映射消息传递算法与采样消息传递算法。映射消息传递算法,提出了映射的概念,利用建立的文档之间的主题共享层,实现文档层主题与共享层主题之间的映射,其中文档共享层是通过使用折棒过程构造来实现的,且共享层的主题数目远远大于文档层的主题数目;而采样消息传递算法,则借鉴HDP模型中吉布斯采样之理念,将吉布斯采样算法与消息传递算法相结合,在HDP模型文档层构建了中国餐馆连锁,利用中国餐馆过程构造与吉布斯采样算法来实现新增主题的动态更新以及文档中单词主题信息的近似估计,而在HDP模型顶层则使用了折棒构造,实现消息传递算法向文档中顶层因子完整的消息传递。实验结果表明对于传统近似算法,两种消息传递算法在混淆度方面有着明显的优势。