基于块稀疏贝叶斯学习的主题模型

来源 :武汉大学 | 被引量 : 0次 | 上传用户:bai7691722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下,信息呈现出爆炸式的增长趋势,特别是诸如微博、推特等短文本内容平台的快速发展极大地促进了信息的传播。从大规模短文本语料中挖掘潜在主题信息具有深远的现实意义和很高的价值。然而,由于短文本具有内容较短、口语化、缺乏共现信息等特点,这使得短文本的主题挖掘任务面临着严峻的挑战。目前,挖掘文本中有价值的潜在语义信息主要有两种方法:传统的概率主题模型(Probabilistic Topic Models,PTMs)和非概率主题模型(Non-Probabilistic Topic Models,NPMs)。然而,PTMs缺乏直接控制学习表达的后验稀疏性机制导致其在短文本主题建模时很难取得满意的效果。而NPMs虽然能够直接控制短文本的稀疏性来挖掘潜在有价值的信息,但存在计算效率慢、挖掘潜在语义信息时稀疏性不够等问题。为了解决上述问题,研究者提出了很多改进措施,但仍存在一些缺陷不能很好的挖掘出有价值的潜在语义信息。随着块稀疏贝叶斯学习和词嵌入(word embeddings)模型等新技术的快速发展,这给短文本的主题挖掘任务带来了新的契机。为了解决短文本的稀疏性低维表达上存在的问题,本文提出了基于块稀疏贝叶斯学习的主题模型(Block Bayesian Sparse Topical Coding,Block-BSTC)有效地利用了块稀疏贝叶斯学习和词嵌入模型等技术来挖掘短文本的稀疏性表达。本文工作主要分为以下三部分:首先,利用词嵌入模型来实现词的向量化表示,并且结合k-means聚类算法对词进行聚类。使得本文的模型能够很好的解决数据稀疏性问题以及提高向量矩阵的稀疏性表达,从而促进向量矩阵内的块结构划分。其次,通过块稀疏贝叶斯学习算法来学习短文本的稀疏性低维表达。块稀疏贝叶斯学习算法能够像NPMs 一样直接控制文档编码和词编码的稀疏度,并且能够学习向量之间的关系构建块结构信息,最终通过学习短文本中稀疏性低维表达来获取主题语义信息。最后,对词编码和主题字典进行优化求解获得最优解。根据块稀疏贝叶斯学习算法的词向量学习过程,通过最大期望算法和主题字典学习方法来求解优化得到词编码和主题字典的值。在20新闻组数据集上的实验结果表明,本文提出的Block-BSTC模型在词编码稀疏性上表现优异。同时,该方法提高了文档的分类准确性。表明本文模型能够在短文本中挖掘有价值的潜在语义信息。
其他文献
21世纪以来,我国国民经济飞速发展,大宗货物运输量的急剧增加,对铁路货运能力提出了越来越高的要求。因此,开展重载铁路运输成为了现今铁路货运发展的必然道路。在开展铁路重载运输的过程中,出现了许多问题,货车运行平稳性就是其中非常重要的一个课题。运行平稳性主要包括横向平稳性、垂向平稳性。本文主要以纵向力作用对重载车辆运行平稳性的影响为研究对象开展相关工作。本论文对某重载线路实测纵向车钩力实验数据进行收集
聚类分析是数据挖掘领域最重要的研究分支之一,也是数据挖掘领域最为常见和最有潜力的发展方向之一,它的目的是根据某种相似度度量对数据集进行划分。目前,针对数值数据的聚
本文旨在全面深入的了解我国高校大规模开放在线课程的发展现状和体育院系理论课程的MOOC开展情况的基础上,进一步探究体育院系理论课程MOOC课程监控的现状,并构建适用于体育
随着互联网技术的迅猛发展,电子商务也得到了井喷式发展。在网上购物时,大多数的消费者在决定购买某一产品前都会事先去阅读该产品的评论信息,因此产品评论对于消费者购买决
目的:探讨不同HbA1c水平T2DM患者临床资料及脑萎缩的差异;采用基于体素的形态学分析方法进一步探讨T2DM患者脑灰质体积与HbA1c水平的关系。材料和方法第一部分研究:回顾性收集2016年7月至2019年7月入住我院诊断明确的T2DM患者,以首次就诊为基线,末次就诊为随访终点。根据随访期间的平均Hb Alc水平,将患者分为两组:(1)血糖控制良好组(HbA1c<7%);(2)血糖控制不佳
公开密钥加密也叫非对称加密,在加密过程中使用两个密钥,即加密公钥和解密私钥。与传统对称加密的一对一加解密方式不同,公钥加密在多个用户相互通信时只需要提供公开的加密
计算机技术、通信网络技术的迅猛发展,推动控制系统实现了前所未有的跨越。日益复杂的控制系统结构及其日益宽广的空间分布,致使点对点控制模式无法符合系统发展的需求。在这
燃烧是复杂的物理化学反应,在燃烧过程中获取火焰温度场对于研究燃烧机理和燃烧优化意义重大。传统的热电偶等测温技术只能实现燃烧场中某一点温度值的测量,不能给出全场温度分布。激光干涉测温技术不仅克服了这一缺点,还具有非接触、测量精度高、实时测量等优点。激光干涉测温技术测量的直接参数是气相介质折射率,通过Gladstone-Dale关系式实现对密度、浓度、温度等多个参数的测量。本研究使用的横向大剪切干涉测
标点符号是辅助文字记录语言的符号,是书面语的有机组成部分。小学教科书中详细安排了各个学龄段的标点符号教学的具体要求和目标。标点符号教学是小学蒙语文教学的重要组成
城镇化进程的演进使得城市下垫面由原先的自然地表逐渐被不透水面所取代,引发了流域内原生水文环境的改变。由此造成的热岛效应、非点源污染、城市内涝等诸多问题使得城市的可持续发展面临严峻挑战。北京作为中国特大城市的代表之一,过去几十年集中建设区内不透水面无序扩张的现象尤为典型,这与北京新一轮城市总体规划中提出的建设四大中心的要求相悖,也与新时代特色社会主义创新、协调、绿色、开放、共享的发展理念不符。不透水