基于特征、先验和约束的主题建模算法

被引量 : 0次 | 上传用户:affairs365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)是一种用来分析大规模文档的概率主题模型,它从文档的单词表示中抽取出语义相关的主题集合,将文档从单词空间变换到主题空间,得到文档在低维主题空间中的表达。然而LDA的使用者往往会遇到两个问题:一是公用词和停用词几乎占据了所有的主题,LDA的主题分布向高频词倾斜,能够代表主题的关键词被少量的高频词掩盖,从而导致较差的主题可解释性;二是如何改善基于主题特征的低维空间表示,以提高检索、聚类和分类准确率。针对这两个问题,我们从连续特征、非对称先验和稀疏约束这三个方面对LDA进行分析。LDA使用离散的词频特征作为输入,假设语料库中单词的重要程度只与词频相关。连续特征考虑不同位置单词的区别,并给予在部分文档中出现频率高而在语料库的其它文档中出现频率低的单词一个较高的值,而给予在整个语料库所有文档中出现频率都很高的单词一个较低的值。停用词和公用词的特征值得到降低,使得主题分布中这些词的概率值变小,得到连贯的主题表示。因为公用词对LDA参数推理和估计也有一部分贡献,所以连续特征对改善主题空间低维表示的效果并不是十分显著。LDA的先验通常启发性地设定为对称的固定值,然而,利用每次迭代得到的主题信息去估计先验将会更加接近于真实值。对称先验使公用词和停用词以相同的可能性分配给所有的主题,而非对称先验会使停用词以较大的可能性分配给有较高先验的主题,让停用词集中出现在少数几个主题中。在模型的训练过程中,通过对先验的学习,提高了模型的后验概率,使主题特征的低维空间表示更加精确。通常越稀疏的信息就能越清晰的反映出它所表示的意义,停用词和公用词往往出现在多个主题中,它们的主题表示有较低的稀疏度,而一些反映主题意义的关键词的主题表示则有较高的稀疏度。在模型参数估计和推理的过程中增加稀疏限定,去鼓励那些有较高主题稀疏度的单词,惩罚有较低主题稀疏度的单词。从而解决LDA中停用词和公用词的问题,并改善主题特征的低维空间表示。本文在LDA模型的基础上,围绕文本数据,以连续特征、非对称先验和稀疏约束为出发点,建立能融和这三种因素的概率产生式图模型以及因子图,提出改进的消息传递算法并对它们进行综合性的评价。结果表明,连续特征的LDA模型通过有效的移除停用词和公用词提高了主题分布的可解释性,非对称先验在主题可解释性、文档分类以及聚类准确率等几个标准上都有所改进,稀疏限定也提高了整体性能。
其他文献
教师专业化是教师职业的核心内容,评价是教师专业发展水平提高的重要组成部分。在教师专业发展评价过程中,赋权增能理论框架下的评价能够有效地推进教师专业发展评价过程中教
近年来,随着我国城镇建设的迅猛发展,短短三十年便完成了西方发达国家近百年的城镇发展进程。城市的大踏步前进释放了巨大的交通需求,交通供需矛盾日益突出。传统解决交通问题的
清华建筑教育自2000年在国内首创并推行"4+2"本硕贯通六年制学制的教学体系,经过近十年的实践探索已形成较为完善的培养模式。在2010年前后,国家层面推动了专业学位研究生项
<正>2015年,哪些新技术需融入品牌传播战略中?科技将如何改变千禧一代的行为,品牌在该人群的消费者通路中可以运用哪些新方式,吸引他们更积极地参与到品牌活动中?在线视频爆
<正> 有什么比想吃李子又缺乏勇气摇树更让人感到难堪呢?——洛根·皮尔索尔·史密斯你为什么会害怕当众讲话呢?你也许已经自问过多次而一直没有找到满意的答案。你唯一能确
近几年来,安全保障义务制度的重要性越来越凸显,对其研究也逐步深入。在我国,《关于审理人身损害赔偿案件适用法律若干问题的解释》(下文简称《人身损害赔偿司法解释》)首次
简单叙述了企业再造工程产生的背景及内涵,根据中国企业现状,概括出中国式企业再造信息技术渗透、系统思考、“市场链”管理和以重新设计流程为支撑要素的思路。
色彩是艺术表现形式的要素之一,它的视觉效果在WEB界面中起到非常重要的角色。在互联网的使用频率的人数不断增加的同时,互联网WEB界面设计越来越注重用户的体验,以用户为中
近年来随着无线传感器技术的快速发展,开辟了体域网这一新兴研究领域,体域网可以认为是以人体为中心的传感器网络系统,可以对人体生命体征进行实时监测,基于监测值的异常变化给出
随着计算机网络技术的日益发展,随着国家对“三农”问题的日益重视,信息化新农村建设,作为加快农村现代化建设的一项重要手段,日益成为我国信息化事业中一支异军突起的重要力量。