论文部分内容阅读
在自然语言处理方面,构建可计算的词语、文本语义特征是多数自然语言处理任务的基础。本文提出一种词语语义相似度计算方法,通过结合文本之外的先验知识,提高在特征稀疏情况下的模型准确率;同时结合词语语义相似度计算与LDA(Latent Dirichlet Allocation)定义文本间的语义距离,通过K-Means聚类获取语料中的事件。两个方法可以结合外部知识改进对词语、文本向量化的过程,提升基于向量的相似度计算的效果。论文的两个主要方面分别为:改进词语语义相似度计算:向量化是词语的语义可计算的关键。本文提出了一种结合词语关系的改进词语语义向量计算法。该方法基于Word2Vec的思路,在通过当前词语预测上下文词语的基础上,同时预测词语在词语关系中的邻接位置。模型将词语经过编码矩阵得到语义向量,再经过解码矩阵得到对上下文词语与词语关系等稀疏特征的预测。通过模型参数对误差的梯度来迭代调整模型,最终得到词语到语义向量的映射方法。该方法可以用过添加额外的词语关系网来缓解文本本身的特征稀疏情况,提高词语语义相似度计算的准确性。改进基于LDA的事件发现:基于LDA的事件发现是通过LDA模型得到文本的主题词向量,并通过主题词向量之间的余弦距离聚类得到文本簇的方法。本文提出了一种融合了词语语义相似度计算与词语在频域特征的文本语义距离计算方法,进而改进了基于LDA的事件发现算法。首先将文本根据时间窗分割后进行LDA计算得到文本的主题词向量,并根据融合词语语义相似度的距离定义进行K-Means聚类得到时间窗粒度的事件;然后根据主题词的词频特征合并时间窗粒度的事件,最终得到事件。该方法可以通过融合额外文本中的词语语义相似度信息,改善对短文本事件发现的准确性。在将本文方法与对比方法进行对照试验后,可以看出本文方法相比对比方法在准确度上有一定的提高。同时由于模型对于关系数据格式与数量没有特殊要求,使得模型拥有较好的通用性与可扩展性。本文的创新点如下:1)通过向量的矩阵表示与局部点乘来表达词语与其他元素之间的多种关系,并通过梯度下降来学习词语的向量表示。2)融合词语的语义相似度与词语词频信息来重新定义主题向量之间的距离,进而改善事件聚类的效果。