论文部分内容阅读
近年来,深度学习借助基于神经网络的词向量在自然语言处理领域大放异彩,席卷自然语言处理各项基础研究。词向量的质量直接影响上层自然语言处理任务的效果。而词向量模型则是训练词向量的核心,但目前诸多的词向量模型仍存在很多不足之处。这些不足之处包括:(1)网络结构问题。目前基于神经网络的词向量模型大多将上下文窗口中的词语同等对待,不考虑词语之间的依存关系;(2)信息丢失问题。固定的上下文窗口会对句子成分复杂的长句和复合句进行裁剪导致部分重要词汇的丢失;(3)未充分利用词性标注的词法结构信息和依存句法的句法结构信息。现有基于词性标注改进的研究大多仅使用词性关联修改词语在上下文中的权重,基于依存句法改进的研究大多没有考虑依存关系的差异;(4)二次采样和负采样技术过于简单。词频高的词语在进行二次采样和负采样时被同等对待,从而导致部分对预测目标词有较大影响的高频词丢失。(5)词性之间的相似度无法衡量。词性之间存在语义鸿沟,就目前所知,没有量化词性之间相似度的算法和数据集。针对基于神经网络的词向量模型所面临的多个问题,本文在现有工作的基础上,结合词性标注和依存句法分析,提出四种改进的词向量模型:(1)基于词性标注的CBOW+P模型。将词性信息整合到词向量的训练过程中,提出词性向量的概念以解决词性相似度难以衡量的问题。具体策略是使用词性向量相关系数和距离加权函数将词向量和词性向量统一训练,同时使用词性占比改进二次采样和负采样技术;(2)基于词性标注的CBOW+PW模型。在CBOW+P模型的基础上,进一步将词性向量相关系数细化到每一个词语中;(3)基于依存句法的CBOW+G模型。提出使用依存句法修正现行固定上下文窗口做法所导致的信息丢失问题。具体策略是使用依存关系权重衡量依存关系的差异,同时提出两种计算依存关系权重策略:预训练平均余弦距离策略和负采样平均余弦距离策略;(4)基于词性标注和依存句法的CBOW+G+P模型。融合CBOW+P模型和CBOW+G模型,同时利用词性标注信息和依存句法信息改进词向量模型。为了衡量词性向量的效果,本文构建了一个含有55组测试数据的词性类比数据集以及一种基于词性向量的句子表示方法。在词相似性、词类比和中文文本分类任务上的实验验证了本文所提出的四种模型的有效性,特别是组合模型(CBOW+G+P)的优异性,且时间复杂度与经典的CBOW模型处于同一量级。