论文部分内容阅读
作为语言的基本单元,单词与句子的表示,一直是自然语言处理领域的核心问题。传统的单词表示通常采用独热表示,将单词表示一个个互相独立的向量。在此基础上,研究人员构建了空间向量模型来表示句子。但是,由于独热表示的先天缺陷,这些表示方式存在诸多严重问题,如难以处理同义词、多义词问题,以及严重的数据稀疏问题。与独热表示将单词离散符号化不同,分布式表示将单词表示为多维连续实数向量,编码了单词的语义信息,很自然地克服了上述独热表示存在的问题。近年来,伴随着深度学习的崛起,分布式表示已广泛应用于自然语言处理的各方面,并取得了极大成功。 在此背景下,如何学习文本的分布式表示便成为一个关键问题。分布语义假设,认为如果两个单词具有相似的上下文,则这两个单词语义相似。这为从大规模无监督语料中学习单词分布式表示提供了一个切实可行的方案。此外,近两年又有工作证实,在句子层面,分布语义假设同样成立。基于此,本文以分布语义假设为基础,对单词与句子两个层面的分布式表示学习进行了系统的研究。具体地,本文研究了分布语义假设在文本表示中的三个关键问题:上下文的定义;上下文的稀疏问题;以及用于句子表示时,句子内部信息的建模。 首先,本文研究了分布语义假设的上下文定义问题,并提出了两个更完整地建模单词外部上下文的单词表示学习模型。分布语义假设的关键,在于上下文的定义。本文首先分析了现有单词表示学习模型,将这些工作归纳为对两类上下文的建模。而后,本文将这两类上下文与单词间两种基本关系相对应,以文档为上下文建模了单词间的横向组合关系,而以周围单词为上下文则建模了单词间的纵向聚合关系。分析发现现有工作都只建模了单词间两种基本关系中的一种,丢失了单词间的部分关联信息。针对此问题,本文提出了两个同时建模单词间横向组合与纵向聚合关系的单词表示学习模型。鉴于此,本文提出了两个模型建模了单词所在文档与其周围单词两种上下文,以同时捕捉单词间的两种关系。实验结果证实了本文所提模型的有效性,也说明了这两种上下文在单词表示学习中的重要性。 然后,针对分布语义假设在单词表示学习中的数据稀疏问题,本文提出两个模型,引入单词内部词素信息来帮助学习单词表示。分布语义假设,使用上下文的统计信息来学习单词的表示,这使得它在处理稀缺词时面临严重的数据稀疏问题。而另一方面,词法学认为单词由一系列更小的词素构成,且含有相同词素的单词往往具有相似的语义或功能。因此,本文在分布语义假设基础上引入单词的内部词素信息,提出了两个同时建模单词外部上下文与内部词素信息的单词表示学习模型。实验证实,本文所提模型不仅在稀缺词表示上表现更好,并且可以捕捉更细粒度的语义信息。此外,本文还将所提模型应用于短语表示学习,并在短语类比任务上取得显著提升。 最后,作为前面工作的延伸,本文研究了基于分布语义假设的句子表示学习,并提出了基于注意力机制的句子表示学习模型。使用分布语义假设学习句子表示,面临着比单词层面更加严重的数据稀疏问题。因此,对于句子内部信息的建模尤为重要。但现有工作对句子内部信息建模并不充分,并未考虑句子中不同单词所起作用的不同。针对此问题,本文在循环神经网络基础上引入注意力机制,自动学习不同位置的权重,以组合得到最终的句子表示。在句子分类、句子关联任务的多个数据集上,均验证了本文所提模型的有效性。 综上所述,针对文本分布式表示学习问题,基于分布语义假设,本文开展了三个研究工作分别解决文本表示学习中的三个关键问题。首先,同时建模单词的两种上下文,以更完整地捕捉单词的语义。而后,引入单词内部词素信息,以缓解分布语义假设外部上下文的数据稀疏问题。最后,基于句子层面的分布语义假设,本文引入注意力机制以更好地建模句子内部信息。