论文部分内容阅读
“的”是现代汉语使用频率最高的虚词,其用法灵活,附着于动词、名词、形容词或词组后面,可作为结构助词,构成名词性的粘合式偏正结构,称为“的”字结构。语气助词“的”多出现于句尾,用于加强肯定的语气。“的”字结构丰富了汉语句子的层次结构,给文本自动理解带来困难,在海量的汉语文本的处理中应当引起研究人员的重视。正确界定“的”字结构、挖掘受语境和语言经济原则制约而省略的中心词语义,是自然语言处理的基础任务,能够为依存句法分析、中文抽象语义表示解析、机器翻译等上层应用提供有力的支持。因此,本文基于中文抽象语义表示语料库CAMR和宾州树库CTB语料库,利用神经网络方法对汉语“的”字结构的识别及缺省语义的补全开展了实验性的研究。研究内容主要包括:(1)提出一种基于神经网络的“的”字结构边界自动识别方法。利用DC-CNN(Densely connected convolutional nerual network)抽取多种n元特征,结合多特征选择的注意力机制妥善解决粒度与语义之间的矛盾,在词语表示中融入上下文信息的局部特征。通过 DC-Bi-LSTM(Densely connected bidirectional long short-term memory)将上下文句法和语义信息融入词语的表示之中。利用softmax函数得到边界的概率。基于联合学习,共享模型参数,同时完成左、右边界的识别任务。实验结果验证了方法的有效性。(2)提出一种基于神经网络的语义省略“的”字结构自动识别方法,根据“的”字结构及其上下文,通过多层 Bi-LSTM(Bidirectionallongshort-term memory),有效学习到句子级语法语义表示。利用Max-pooling层和基于GRU(Gated recurrent unit)的多注意力层,捕获“的”字结构的省略特征并将其合理组织,完成语义省略“的”字结构识别任务。实验结果显示,该模型能够取得较好的识别效果,且随着语料规模的增大,有可能取得更好的效果。(3)提出一种基于神经网络的“的”字结构缺省语义自动补全方法,借鉴中文抽象语义表示中根据句义增加原句以外的命名实体概念节点来表示隐含语义的思路,将“的”字结构的缺省信息归为不同的概念类别,定义该任务为多分类任务。通过DC-Bi-LSTM有效学习深层次的、抽象的、融合省略“的”字结构及其上下文的语义表示。在模型的构建中尝试性融入省略“的”字结构的语言学知识,通过CNN(Convolutional nerual network)有效提取n元特征。利用softmax分类函数得到缺省中心语的类别。实验结果显示所提模型能够较好地补全缺省语义类别。