论文部分内容阅读
随着移动互联网飞速发展,以短文本为载体的信息数据不断增加。有效信息的筛选和利用是短文本挖掘的主要目的,短文本自动分类能够帮助用户快速定位文本内容并有选择性地处理海量文本。本文主要研究BTM(Bi-term Topic Model)主题模型和词向量模型在短文本上的应用,通过进行模型改进提升短文本的分类效果。主要创新成果如下:(1)针对目前短文本在BTM主题模型建模过程中存在的共现双词之间语义联系较弱的问题,提出结合cw2vec词向量模型的改进BTM主题模型(cw2vec-BTM)。首先分析BTM模型中存在的问题,然后实验对比了几种常用的词向量模型,选取语义表示能力最佳的cw2vec模型来进行词向量的训练,并计算词语间语义相似度,接下来在BTM的共现双词采样过程中,判断采样词对的语义距离是否符合规定的阈值,若符合则对词对数量进行扩充,并更新扩充后的采样主题;否则按传统主题采样方式进行操作。最后通过对比实验证明,使用词向量模型改进BTM的吉布斯采样方式能有效地提高主题模型的主题凝聚度和KL散度。(2)针对目前词向量无法解决短文本中一词多义的问题,根据多义词在不同的主题下表示不同语义的特点,提出融合词向量和BTM主题模型的Multi-TWE多维主题词向量模型。首先进行BTM模型的参数推理,得到目标词以及相应的主题,根据词与主题的结合方式不同,将模型算法分为MuTWE-1算法和MuTWE-2算法。MuTWE-1算法直接将(词,主题)结合成一个“伪词”,当作一个词语输入SE-WRL模型中训练主题词向量,相同词语根据不同的语义获得不同的向量;MuTWE-2算法将词与主题分开进行词向量训练,将得到的目标词向量与主题向量进行加权连接得到主题词向量,相同词语连接不同的主题能够表示不同的语义。最后,将该算法应用于词语相似度任务中,证明模型能实现多义词的多维词义表示。(3)将Multi-TWE模型算法应用于短文本分类,提出基于Multi-TWE算法的短文本分类方法。在新闻标题语料上训练Multi-TWE算法模型,使用获得的多维主题词向量的加权平均值表示短文本向量,再将其作为分类器的特征向量进行分类器的训练。最后与支持向量机(SVM)、BTM和word2vec分类方法进行对比实验,实验结果表明本文提出的短文本分类方法在平均F1值上比前三种方法分别提升了 3.54%、11.41%和2.86%。