论文部分内容阅读
微博是一种新兴的社交平台,数以亿计的用户每天在微博上发布海量的微博数据。在这些海量的微博中有些微博具有一定意图,它们通常使用显式或者隐式的表达方式来表达相应的意图。将微博中的这些意图准确地识别出来具有巨大的商业价值,本文针对微博中的意图识别主要进行了以下三方面的研究:(1)微博中的显式意图的识别。具有显式意图的微博通常有“想要”,“希望”等意图触发词。本文我们提出了一种新的基于维基百科的显式意图识别模型。对于每一种意图,我们首先选取一些最能代表这种意图的概念集合,即种子概念。然后将种子概念放在维基百科进行查询,通过概念之间的链接关系,我们可以获得与种子概念相关的概念集合,这些扩展的概念在一定程度上也具有相同意图。之后我们利用获得的概念集合构建相应意图的维基百科链路图,在图中用随机游走算法对每个概念分配意图得分。最后我们将微博映射到相应的意图空间中得到相应的意图得分,我们根据意图得分判断微博是否具有对应的意图。如果微博中的某些词没有被维基百科收录,我们利用显式语义分析(ESA)的方法将其映射到最相关的维基百科概念,然后再进行映射计算相应的意图得分。(2)微博中隐式意图的识别。具有隐式意图的微博通常不具有意图触发词,但是可以通过推理得到微博中的意图。目前大多数的研究工作都是针对显式意图识别的,而本文我们进行了微博中隐式意图的识别。我们利用编码器-解码器模型(Encoder-Decoder)将具有隐式意图的微博“翻译”为相应的显式意图的表达方式,然后再进行显式意图的识别。编码器-解码器模型主要应用于序列到序列问题(seq2seq),例如机器翻译,语音识别,图像描述等,而隐式意图与显式意图的转换也属于seq2seq问题,因此可以使用编码器-解码器模型。传统的基于RNN的编码器-解码器模型的主要思想是将输入的句子编码为一个固定长度的语义向量,然后将该语义向量解码生成相应的输出句子。Bahdanau等人后来提出了注意力模型,改进了基于RNN的编码器-解码器模型,他们将输入句子编码为一个长度不固定的语义向量,这样使得即使句子长度很长,翻译效果同样很好。实验中我们进行了两种模型的对比,结果表明注意力模型要比基于RNN的编码器-解码器模型效果更好。为了训练模型,我们构建了包含隐式意图的微博和相应的显式意图微博的语料库。一旦我们通过注意力模型获得意图的显式表达方式之后,接下来就可以使用本文提出的基于维基百科的显式意图识别模型识别其中的显式意图。(3)微博中意图的识别。我们提出一种基于词向量与卷积神经网络的意图识别模型,这种模型具有通用性,不仅可以用来识别显式意图,也可以用来识别隐式意图。模型的通用性主要得益于两方面,一方面是词的词向量表示具有丰富的语义特征,另一方面是因为卷积神经网络可以提取句子的语义特征。因此,当我们将意图识别问题视为多元分类问题时,即一条微博是否具有某种意图,模型可以对具有意图的微博进行分类,无论其中的意图表达方式是显式的还是隐式的,词向量和卷积神经网络模型都可以提取其中的语义特征然后进行正确的意图识别。