论文部分内容阅读
随着网络技术和社交媒体的快速发展,越来越多的用户可以随时随地接入网络,便捷地使用网络服务,如新浪微博、Twitter、百度知道、新闻评论、购物评价等。用户使用这些应用服务,会在互联网领域内留下海量的短文本信息,其中隐藏着有价值的内容,面对如此海量的短文本资源,如何挖掘这些信息,是目前短文本处理亟待解决的重要问题。近年来,主题模型技术取得了很大的成功,已成为智能化处理文本信息的主要方式之一。然而,直接将传统主题模型应用在短文本上会面临严重的稀疏问题,主要由于短文本长度较短,词共现信息不足,传统主题模型在文档水平利用词共现信息推理主题会非常困难。针对短文本主题建模面临的稀疏问题,本文利用词向量相加,融合词向量的语义,扩充短文本的表示,解决短文本稀疏问题,提出了隐含词向量模型(Latent Word Embedding Modeling,LWEM)。主要工作如下:(1)分析研究短文本主题建模稀疏问题。短文本经过预处理之后,通常少则几个词,多则十几个词,在文档水平词频和词共现信息都很稀疏,上下文信息不丰富,基于如此有限的信息推理短文本的主题结构会非常困难。(2)利用词向量相加扩充短文本的表示,提出基于词向量的短文本主题建模模型。词向量可以从大量的语料集合中学习到词语的语义关系,利用词向量增强短文本主题建模的能力是本文的目的。本文提出利用词向量的基本数学性质——可加性,即利用词向量A加词向量B,融合词向量A和词向量B的语义生成词向量C,并将其加入到原来的短文本文档中,扩充短文本的表示,解决短文本的稀疏问题。LWEM模型假设存在文档、主题和词向量的三层结构,考虑到短文本在文档级别的稀疏问题,LWEM模型假设整个语料集合服从一个主题分布,主题服从高斯分布,在词向量上进行建模。(3)通过实验评估本文提出的LWEM模型主题建模的能力。本文通过利用Twitter和新浪微博等实际应用的短文本资料为基础构建了实验的数据集,使用gensim库的Word2Vec工具训练词向量。在这两个数据集上分别应用了DMM模型、LDA模型、BTM模型和本文提出的LWEM模型,对主题一致性、分类性能进行了比较,实验结果证实了本文提出的方法可以有效解决短文本主题建模稀疏问题。