论文部分内容阅读
自然语言处理作为人工智能的重要研究领域之一,是利用计算机进行语言知识的获取、表示以及应用的技术,为人与计算机之间的信息交流提供了更加高效、便捷的方法。多词表达是自然语言处理中比较普遍且没有精确定义的一个概念,它是指两个(或两个以上的)词单元同时出现一起的概率相对较高的词组合。多词表达涵盖了多种词单元的组合形式。多词表达在自然语言处理领域是一个相当普遍的现象,因此对多词表达的识别与分类就显得格外重要。其中“动词+名词”形式(Verb Noun Construction, VNC)的多词表达所占比例最高,因此对它的研究更具有典型性。多词表达一直是自然语言处理中的一个难点,其语义信息与句法信息等无法直接从其组成词的信息得到,部分多词表达的整体含义甚至与其单独的组成词的含义风马牛不相及,导致必须在机器翻译等领域对多词表达的属性作出准确的预判:是根据组成词的组合含义来解释多词表达,抑或是由第三类完全不相关的含义对多词表达作出解释。本文的主要工作分类为VNC结构多词表达的抽取与分类。首先针对多词表达地抽取工作:作为多词表达本身,相对于其他独立的词语个体而言,其组成词之间的粘连度更高。基于此,本文通过计算组成词间的粘连度,且作为多词表达本身所具有的独立性,从大量的文本中抽取符合要求的候选对象。第二步工作是分类。在获得候选对象的前提下,需要对结果进行分类:分成组合性与非组合性两类。本文分别从语义与上下文语境两个角度分别考量分类性能。此分类对于机器翻译等领域有着至关重要的作用,直接决定翻译的角度与方式:被归类为组合性的多词表达,其含义可以直接根据字面意思来解释;被归类为非组合性的多词表达则需要从习语性的角度进行整体性的释义。