基于词向量的短文本主题建模研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:majk509
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和社交媒体的快速发展,越来越多的用户可以随时随地接入网络,便捷地使用网络服务,如新浪微博、Twitter、百度知道、新闻评论、购物评价等。用户使用这些应用服务,会在互联网领域内留下海量的短文本信息,其中隐藏着有价值的内容,面对如此海量的短文本资源,如何挖掘这些信息,是目前短文本处理亟待解决的重要问题。近年来,主题模型技术取得了很大的成功,已成为智能化处理文本信息的主要方式之一。然而,直接将传统主题模型应用在短文本上会面临严重的稀疏问题,主要由于短文本长度较短,词共现信息不足,传统主题模型在文档水平利用词共现信息推理主题会非常困难。针对短文本主题建模面临的稀疏问题,本文利用词向量相加,融合词向量的语义,扩充短文本的表示,解决短文本稀疏问题,提出了隐含词向量模型(Latent Word Embedding Modeling,LWEM)。主要工作如下:(1)分析研究短文本主题建模稀疏问题。短文本经过预处理之后,通常少则几个词,多则十几个词,在文档水平词频和词共现信息都很稀疏,上下文信息不丰富,基于如此有限的信息推理短文本的主题结构会非常困难。(2)利用词向量相加扩充短文本的表示,提出基于词向量的短文本主题建模模型。词向量可以从大量的语料集合中学习到词语的语义关系,利用词向量增强短文本主题建模的能力是本文的目的。本文提出利用词向量的基本数学性质——可加性,即利用词向量A加词向量B,融合词向量A和词向量B的语义生成词向量C,并将其加入到原来的短文本文档中,扩充短文本的表示,解决短文本的稀疏问题。LWEM模型假设存在文档、主题和词向量的三层结构,考虑到短文本在文档级别的稀疏问题,LWEM模型假设整个语料集合服从一个主题分布,主题服从高斯分布,在词向量上进行建模。(3)通过实验评估本文提出的LWEM模型主题建模的能力。本文通过利用Twitter和新浪微博等实际应用的短文本资料为基础构建了实验的数据集,使用gensim库的Word2Vec工具训练词向量。在这两个数据集上分别应用了DMM模型、LDA模型、BTM模型和本文提出的LWEM模型,对主题一致性、分类性能进行了比较,实验结果证实了本文提出的方法可以有效解决短文本主题建模稀疏问题。
其他文献
<正> 随着人类寿命的延长、医学诊断水平的提高以及饮食习惯的变化,前列腺癌的发病率呈现逐渐增长的趋势。前列腺穿刺活检是前列腺癌诊断的一项重要手段,目前有经直肠和经会
高校的公共英语不仅是一门学科,更具有服务师生、服务学校和服务社会的功能。本文在分析了目前高等院校师生和社会对英语学习内容的需求的基础上,研究了英语微课信息服务平台
该文论述了木器和家具用漆的发展现状,结合国外近几年来的发展情况,与我国木器和家具漆在品种、产量等方面存在的差距和问题进行对照,旨在唤起我国涂料工业在品种结构调整中应注
电网规划方案的优劣与实施程度对电网的安全稳定起着关键作用;因此有必要建立一套较为完整的输电网评价指标体系和评价标准,对规划方案的优劣进行量化评估。该研究从技术和经
生态资源空间分布客观性与生态利益分配主观性的错位导致生态治理问题,其难点在于利益结构、社会结构与生态结构的协调。目前的税费结构与生态成本补偿机制弱化了生态治理效
近些年,伴随着市场经济的快速发展,我国城市化进程开始加快,公路运输行业开始快速发展,为公路运输企业带来了前所未有的宏观经济环境,推动了我国公路客运行业进入全面的发展
祁漫塔格地区是青海省内重要的铁、多金属成矿带之一,被国家列为十大新的资源接替基地。区内铀矿化分布广泛,已发现铀矿(化)点3个,矿化信息点4个,铀化探异常多处。祁漫塔格地
《大连教育学院"十二五"发展规划》是指引学院"十二五"期间发展的纲领,它明确了学院未来五年的发展方向和奋斗目标,绘制了学院科学发展的宏伟蓝图。我们一定要认真学习领会,全面
目的研究人工授精术后的随访。方法选取人工授精术患者2010例,对其进行术后随访。结果本组2010例患者共2972个AID周期,随访率达100%。临床妊娠296例,流产56例,异位妊娠4例,临