HDP消息传递算法

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lnawxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展导致微博、新闻和博客等网络数据呈现爆炸式的增长。管理并利用这些海量级数据成为一大难题,主题模型是解决该难题的有效方法之一。主题模型通过对文档进行聚类,将文档归纳为几个简单的主题,使得人们可以快速地从各类文档集中找到自己所需要的信息。传统主题模型需要给定聚类的数量,即对于一个语料集,模型究竟该将其聚为多少类。通常我们需要不断的尝试各种数量,虽然基于评价标准可以从中寻找到最佳的聚类数量,但是这种主观判断的方法存在较大的偶然性。分层狄利克雷过程(Hierarchical Dirichlet Process,HDP)模型是传统主题模型在无参方向的一个衍生,它是一种可用于分析大量文本数据的概率主题模型。同时它也是一种贝叶斯无参模型(Bayesian non-parametric model,BNP),主要用于解决传统概率主题模型中聚类数目的问题。HDP模型的提出主要依赖于狄利克雷过程(Dirichlet Process,DP)无限维度的特点,令数据在训练的过程中发现其隐藏的主题,该主题可以是当前已发现的主题,也可以是未发现的主题,进而实现无参主题模型中主题的动态变化。传统无参HDP主题模型的参数估计与近似推理主要依赖于使用中国餐馆过程构造的吉布斯采样算法。该算法基于马尔科夫链蒙特卡洛,通过大量采样样本去近似后验分布。然而该算法存在较强的随机性,且无法保证消息的完整性。针对传统算法的缺点,本文提出使用消息传递算法来理解HDP模型。通过分析HDP模型对应的因子图模型中因子之间的联系,实现模型中后验概率近似推理的分布化与局部化。基于消息传递算法理论,本文提出了两种适用于HDP模型的消息传递算法:映射消息传递算法与采样消息传递算法。映射消息传递算法,提出了映射的概念,利用建立的文档之间的主题共享层,实现文档层主题与共享层主题之间的映射,其中文档共享层是通过使用折棒过程构造来实现的,且共享层的主题数目远远大于文档层的主题数目;而采样消息传递算法,则借鉴HDP模型中吉布斯采样之理念,将吉布斯采样算法与消息传递算法相结合,在HDP模型文档层构建了中国餐馆连锁,利用中国餐馆过程构造与吉布斯采样算法来实现新增主题的动态更新以及文档中单词主题信息的近似估计,而在HDP模型顶层则使用了折棒构造,实现消息传递算法向文档中顶层因子完整的消息传递。实验结果表明对于传统近似算法,两种消息传递算法在混淆度方面有着明显的优势。
其他文献
命题可满足性问题(SAT)是判定一个给定的CNF形式的命题逻辑公式是否存在可满足的赋值的问题。SAT问题是数理逻辑、人工智能和理论计算机科学中的核心问题,也是解决许多实际问
篇章分析是自然语言处理中一项极具挑战的任务,它是自然语言理解的基础,对许多自然语言处理的应用而言(如问答系统,自动文章摘要,篇章生成等)意义重大。近年来,篇章理论的发
嵌入式电子词典作为一种中低端电子学习产品,对于提高人们的外语水平、方便个人信息管理有着重要的作用,具有巨大的市场潜力。单词查询是嵌入式电子词典最基本的功能,加快单词查
随着网络的不断发展,无线通信行业在二十世纪九十年代出现了爆炸性增长。随着无线电话的广泛应用以及无线运营商之间的竞争,语音传输质量和客户服务成为用户评价运营商网络的关
布局问题来源于生产实际,广泛存在于汽车制造、造船、制衣、玻璃加工、家具制造等行业。在当今各种能源材料短缺的情况下,提高板材利用率以节约原材料,降低成本,提高经济效益
近年来,由于互联网的广泛普及和宽带网的高速发展,对网络带宽要求较高的网络多媒体技术也发展迅猛,其中基于P2P网络的流媒体技术成为当前研究的热点。P2P技术采用完全分布式
近年来,面向服务的计算(SOC)成为了软件领域研究的热点之一,它的核心理念是在交换的软件成分之间,构建起松耦合的协同软件体系。SOC以Web服务作为基本组成成分,并采用一系列的
随着软件行业的发展,软件的复杂程度不断提高,人们需要一种方法来总结和重用良好的软件设计。设计模式是针对特定场景下的特定问题的可重复、可表达的解决方案,是对成功设计经验
细胞自动机具有演化规则简单、相互作用局部化和信息处理高度并行的特点。将细胞自动机的动力学系统复杂特性应用于密码技术当中,具有非常重要的研究价值。 本文在前人学者
随着网络化、信息化、全球化的新经济时代的到来,电子商务逐渐渗透到经济生活中的各个领域中,而互联网上的安全问题也日益突出。目前,公钥基础设施(PKI,Public Key Infrastru