论文部分内容阅读
组块分析是属于句法分析的研究范畴,也叫做浅层句法分析,是自然语言处理中的关键的一环。组块分析采用“分而治之”的策略,对句子的组块进行识别。本文的目的是对汉语句子进行组块的识别,为其他自然语言处理任务提供基础服务。 完全句法分析是自然语言处理的一个难点,它要确定的是句子中所包含的全部的句法信息,并得到句子中各个成分之间的依附关系,最终得到句子的完全句法分析树。完全句法分析是一项非常困难的任务,目前的研究结果并不能令人十分满意。为了将句法分析在自然语言中进行有效的应用,组块分析技术于上世纪九十年代被提出。不同于在之前的完全句法分析,组块分析只识别出句子中的某些相对简单的独立成分。组块分析的出现降低了句法分析的复杂度,有利于句法分析在一些文本处理的任务中得到了快速的应用。 组块分析一般有基于规则和基于统计两种方法。基于规则的方法要求手写规则,而传统的基于统计的方法需要大量的特征工程来做基础,这两种方式对人工的依赖明显。为了减少这种依赖,本文将研究重点转移向了深度学习中的递归神经网络方法。 深度学习是近年来新兴起的机器学习方法,它能够对特征进行自动学习,从而形成更加抽象的高层特征,减少了对特征工程的依赖,这是与传统方法最大的区别之一。其中,递归神经网络可以携带“过去”的信息,其双向结构还可以捕获到“未来”信息,不论“过去”信息还是“未来”信息都对组块识别有所帮助。因此,本文的研究重点是如何将递归神经网络适当的应用到组块识别问题中。本文的主要贡献如下: (1)针对组块分析任务的输入特征,本文研究了融合词性信息的词向量的获取方法,并在word2vec和CWE模型的基础上,提出了结合词性信息的词向量模型:pw2vec和PCWE。 (2)将RNN、BRNN、LSTM和BLSTM分别用于组块分析任务,其中BRNN模型取得了最高的91.73%的F1值,超过了baseline;更进一步,我们通过分析递归神经网络存在的不能解决标记偏置和标签依存的问题,将递归神经网络和条件随机场进行模型组合来弥补这个缺陷,实验结果显示组合模型的F1值得到了全面的提升,其中BRNN-CRF模型的F1值最高,为92.2%。