论文部分内容阅读
多词表达是指由两个及以上具有一定的句法和语义关联的词语构成的意义相对完整的语义单元。多词表达问题是目前自然语言处理领域最棘手的问题之一,多词表达会导致分词和语义等方面的错误增加,进而影响机器翻译和句法分析等实际应用的性能。在中文多词表达里,“动词+名词”以及“名动词+名词”的多词表达最为常见,因此,本文主要以中文“动词+名词”以及“名动词+名词”的多词表达为研究对象,包含多词表达的自动抽取和应用。本文的研究的主要内容有以下的几个方面:1、基于双语语料多词表达候选的抽取。利用印欧语言的边界来帮助确定汉语中完整语义单元的边界。本文利用短语对齐工具对中英双语句对齐语料进行对齐处理,然后抽取多词表达候选,并与基于词对齐工具的方法进行比较。本文对北大中英对齐语料进行实验,基于短语对齐抽取的多词表达候选F值为55.95%,基于词对齐抽取的多词表达候选F值为45.32%。2、基于句法分析的多词表达候选的抽取。由于句法分析能够识别出句子的语法结构,对语言的处理可以深入语言的内部结构。本文利用三种句法分析器:哈工大句法分析器,伯克利句法分析器,斯坦福句法分析器分别对北大对齐语料的中文部分进行句法分析,然后再抽取特定依存关系的词语对作为多词表达候选,正确率分别为哈工大42.40%,伯克利41.00%,斯坦福39.73%。3、构建中文“动词+名词”以及“名动词+名词”多词表达分类数据集。构建过程分两步:统计过滤、多词表达分类。基于统计的方法处理大规模语料时比较方便快捷,且不依赖具体领域。本文采用内部度量方法互信息,外部度量方法C-value等进行多词表达候选的过滤。多词表达分类是将过滤后的多词表达进行分类:定中类和述宾类,来构建分类数据集,这对以后的研究具有重要的意义。4、句法分析结果纠错。将本文自动抽取的中文多词表达与句法分析结果进行比较,进行句法分析纠错。本文对哈工大句法分析器的分析结果与抽取的多词表达进行比较,结果发现哈工大的分析结果中出现本文抽取出的多词表达的定中结构正确率为98.87%,述宾结构正确率为99.98%。