一种基于动态词汇表的在线LDA算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:testjmalt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前的在线潜在狄利克雷分布模型(LDA)算法大多是基于固定的词汇表,在实际应用中经常会出现词汇表和处理的语料不匹配的情况,影响了模型的实用性。针对这个现象,在置信传播算法(BP)的框架下,使主题单词分布服从狄利克雷过程,重新推导公式,使得词汇表在模型运行之前为空,并且在处理时不断向词汇表中增加发现的新词。实验证明,这种新的基于动态词汇表的算法不仅使得词汇表与语料的贴合度更高,而且使其在混淆度以及互信息指数这两个指标上能够比基于固定词汇表的LDA模型表现得更加优越。
其他文献
为了提高人工免疫算法(AIA)的运行速度,对AIA的算法构成进行了详细深入的分析研究,发现AIA的大部分机时耗费在计算抗体群信息熵过程中的大量的对数函数重复计算上面,据此提出
指出了数字水印在数字媒体版权保护中的重要作用,介绍了数字图像水印技术的基本概念、数字水印的特点、水印系统模型及水印嵌入的典型方法,分析了数字图像水印制作技术的发展
开发Linux下的设备驱动程序是一项比较繁琐的工作.从具体的USB设备驱动的开发流程出发,描述了Linux系统下USB设备驱动程序的几个主要开发细节和注意点.以能够提供给大家一个
对采用分布式嵌入式实时操作系统QNX开发基于PC硬件平台的嵌入式网络视频监控系统作了应用分析和系统设计,并详细论述了系统的视频采集卡驱动程序和视频回放软件在QNX RTP 6.
针对实际多变量、强耦合非线性温控系统,设计了自适应拟人智能控制器.采用了分区控制思想,根据不同的误差和误差变化趋势,采用了不同的PID控制策略.为了更好地克服各种外界因
提出了一种基于PXI和DSP的高性能数据采集设计方案并给出原理性介绍,集成在一板卡上实现了8通道模拟信号调理、采集、处理,并可实现多卡同步触发采集,已成功地完成某航空机载
开发出了一种用于移动载体(车、船、舰等)上利用稳定平台来进行卫星通信与电视信号接收的系统,采用基于ARM7TDMI核微处理器的嵌入式系统来跟踪与控制稳定平台的运动;重点介绍
文章提出了一种基于自适应混合模型和区域特征的多目标跟踪与检测算法.背景分割算法采用高斯混合模型描述每一被观察像素的近期色彩历史,建立自适应背景模型,然后根据背景模
介绍了可编程控制器(PLC)在自来水工业监测系统中的应用,它采用了可编程控制器作为下层数据采集和处理的核心设备,先进的硬件技术和优化的软件设计使整个系统的可靠性、可扩
UCON模型作为新一代的访问控制模型,能够通过可变属性对使用实现连续控制,可满足当前开放的网络环境需求。但UCON模型仍存在一些缺陷:不能实现对权限的管理、对权限的委托和对