基于微博的意图识别

来源 :西华大学 | 被引量 : 0次 | 上传用户:adder2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是一种新兴的社交平台,数以亿计的用户每天在微博上发布海量的微博数据。在这些海量的微博中有些微博具有一定意图,它们通常使用显式或者隐式的表达方式来表达相应的意图。将微博中的这些意图准确地识别出来具有巨大的商业价值,本文针对微博中的意图识别主要进行了以下三方面的研究:(1)微博中的显式意图的识别。具有显式意图的微博通常有“想要”,“希望”等意图触发词。本文我们提出了一种新的基于维基百科的显式意图识别模型。对于每一种意图,我们首先选取一些最能代表这种意图的概念集合,即种子概念。然后将种子概念放在维基百科进行查询,通过概念之间的链接关系,我们可以获得与种子概念相关的概念集合,这些扩展的概念在一定程度上也具有相同意图。之后我们利用获得的概念集合构建相应意图的维基百科链路图,在图中用随机游走算法对每个概念分配意图得分。最后我们将微博映射到相应的意图空间中得到相应的意图得分,我们根据意图得分判断微博是否具有对应的意图。如果微博中的某些词没有被维基百科收录,我们利用显式语义分析(ESA)的方法将其映射到最相关的维基百科概念,然后再进行映射计算相应的意图得分。(2)微博中隐式意图的识别。具有隐式意图的微博通常不具有意图触发词,但是可以通过推理得到微博中的意图。目前大多数的研究工作都是针对显式意图识别的,而本文我们进行了微博中隐式意图的识别。我们利用编码器-解码器模型(Encoder-Decoder)将具有隐式意图的微博“翻译”为相应的显式意图的表达方式,然后再进行显式意图的识别。编码器-解码器模型主要应用于序列到序列问题(seq2seq),例如机器翻译,语音识别,图像描述等,而隐式意图与显式意图的转换也属于seq2seq问题,因此可以使用编码器-解码器模型。传统的基于RNN的编码器-解码器模型的主要思想是将输入的句子编码为一个固定长度的语义向量,然后将该语义向量解码生成相应的输出句子。Bahdanau等人后来提出了注意力模型,改进了基于RNN的编码器-解码器模型,他们将输入句子编码为一个长度不固定的语义向量,这样使得即使句子长度很长,翻译效果同样很好。实验中我们进行了两种模型的对比,结果表明注意力模型要比基于RNN的编码器-解码器模型效果更好。为了训练模型,我们构建了包含隐式意图的微博和相应的显式意图微博的语料库。一旦我们通过注意力模型获得意图的显式表达方式之后,接下来就可以使用本文提出的基于维基百科的显式意图识别模型识别其中的显式意图。(3)微博中意图的识别。我们提出一种基于词向量与卷积神经网络的意图识别模型,这种模型具有通用性,不仅可以用来识别显式意图,也可以用来识别隐式意图。模型的通用性主要得益于两方面,一方面是词的词向量表示具有丰富的语义特征,另一方面是因为卷积神经网络可以提取句子的语义特征。因此,当我们将意图识别问题视为多元分类问题时,即一条微博是否具有某种意图,模型可以对具有意图的微博进行分类,无论其中的意图表达方式是显式的还是隐式的,词向量和卷积神经网络模型都可以提取其中的语义特征然后进行正确的意图识别。
其他文献
这是一个非常有挑战的任务:在社交网络中发现一个大小为的节点集合作为初始目标种子集合来最大化影响力。这个问题被证明是一个NP-hard的问题。但是幸运的是影响力函数()具有
混合像元问题一直以来就是图像处理、分类、识别和理解的一大障碍,也是传统的像元级遥感分类和面积量测的精度难以达到使用要求的主要原因。混合像元普遍存在于高光谱影像中,在很大程度上增加了对高光谱影像进行精确地物分析和图像分类的难度。解决像元内光谱混合问题的过程称为混合像元分解,该过程通常可分为端元提取和丰度反演两个步骤,准确而高效的提取端元是提高丰度反演精度的基础,因此,端元提取是混合像元分解的关键步骤
随着汽车技术的发展,汽车上的电子控制单元不断增多,汽车电子化成为了汽车技术的发展趋势。FlexRay总线作为新一代汽车内部网络通信协议,具有高带宽、确定性和可靠性等特点,能够
车载自组织网络(VANET)技术的快速发展,提高了道路利用的安全性和有效性。但由于车载自组织网络拓扑结构变化快,对信息实时性要求高,同时车载自组织网络具有开放性特点,这使
数字电路实验对培养学生的对手能力、创新能力有着重要的作用。虚拟实验平台在满足教学目的的同时,又能够减少资源的投入。随着移动平台的日渐增多,原本的教学软件往往不支持这
互联网时代的到来导致了 web信息爆炸式增长,人们对于快速获取web文本主旨信息的需求已非常迫切,因此,自动提取文本摘要的自动文摘算法和自动文摘软件成为了中文信息处理领域
图像复原就是将退化图像重建为接近于无退化的原始图像的过程,是数字图像处理领域中最重要、最基本的研究课题之一。噪声是导致图像降质的主要原因,因此如何有效去除图像中的噪
云计算将分布在不同地理位置的计算资源和存储资源整合起来形成一个资源池。因其高效、灵活、按需服务、按质付费的特点,使得越来越多的个人、企业和政府等选择一些云服务商
射频识别技术(RFID)是一种非接触式的自动识别技术,其基本原理是利用射频信号的空间耦合和传输特性来实现数据的双向通信从而实现目标识别。无源超高频射频识别(UHF RFID)是
在有限元分析中,六面体网格比四面体网格的计算效率更高。达到同样的计算精度,需要的六面体网格的单元数比四面体少;在网格单元数一样的情况下,六面体网格的计算精度比四面体