论文部分内容阅读
自然语言处理(Natural Language Processing)是计算机科学技术研究方向与人工智能(AI)研究方向中极为重要一部分。人类语言中的词汇、句式以及文章含义存在着许多丰富的关系。随着多年的深入研究,大量的研究人员转入词汇间语义关系的研究领域。其中Mikolov等人提出了word2Vec这种词向量的训练方式,给研究人员开辟了新的研究思路。Mikolov的研究,在无监督环境下,词向量的简单矢量减法蕴含着不同的词汇语义关系,如向量减法6)4)9)2)-8)(69)≈0)0)9)-8)(69)。他指出这种矢量减法,只能回答40%的SemEval-2012 Task 2的问题。基于这种残差关系向量研究并取得成果的领域主要集中时态、语态以及上下位这些简单语义关系。但是整体部分关系、事件关系等复杂语义关系还需要进一步研究。结合上述存在的问题,本文基于词向量技术(word2Vec和GloVe)提出三种预测模型来挖掘整体部分关系、事件关系等复杂关系,并验证时态、语态关系等关系的适用性。本文采用维基百科英文全语料来训练词向量,以确保数据没有任何关系的侧重。根据对训练集关系残差向量的分类聚类顺序,提出了聚类优先和分类优先模型。聚类优先是先无监督的对关系向量聚类,再通过标签特征(有监督)转化关系向量,最后通过分类算法预测关系;分类优先是先将关系向量按标签分类,再使用聚类算法以及负采样模型学习通用的关系向量,最后通过分类算法预测关系。在这两个模型下验证的词汇关系种类共9种,精确率平均超过95%。另外对于具有传递性的整体部分关系,本文通过谱聚类优化得到6种整体部分关系引导关系向量。本文采用分段预测法以及负采样模型进行自动的挖掘整体部分关系的候选词。若候选词不足,本文提出了增加网络数据补充候选词方法。最后使用预测模型过滤候选词。整个过程是在开放语料下进行的,使用单模型的精确率可以达到84%,多模型优化策略,精确率提高到90%。