论文部分内容阅读
介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围:可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。 本文首先指出了当前完全语法分析的困难,而介词短语识别和其他类型短语识别以及组块分析是一种解决问题的途径。并介绍了介词短语识别的研究现状以及技术路线,提出了汉语介词短语识别的重要性和可行性。随后在继承了语言学家工作的基础上,对汉语介词短语的语义,语法,语用情况进行了讨论,提出了基于汉语介词短语的分类体系,制定面向计算机的介词短语的标注规范。在研究过程中,本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,尝试在浅层句法分析这个层级识别介词短语。本文实现介词短语识别的系统是基于最大熵的统计模型,最大熵模型具有简洁、通用和可移植等特点,能够灵活地选取特征,同时可以把计算模型和语言模型作为独立地模块处理,而不必关心语言内部的细节。特征集合的选取是最大熵模型的关键,它选取合适与否决定了介词短语识别结果的好坏。因此在本文中针对汉语介词短语的划分和识别,提出了词、词性标注是构成介词短语识别的主要因素,并根据这几种因素结合介词短语的语用特征来确定最大熵模型的特征空间,从中自动获取介词短语识别的有效特征集合。 实验表明,利用基于最大熵模型的方法来识别中文介词短语是有效的:系统使用含有7000余个介词短语的2000年人民日报语料的开放测试精确率达到89.1%。和当前同类文献相比,本识别系统取得了比较好的识别结果。并且本文所提出的方法具有很强的推广能力,利用本方法还可以对其它类型短语,如基本名词短语,最长名词短语等进行识别。