论文部分内容阅读
在不影响意思表达的情况下,为了语言的简洁明了通常会省略部分语言成分,这种现象称为缺省。缺省是一种常见的语言现象,在汉语中更加普遍。国内外对于中文缺省的研究起步比较早,但大多数的研究都只停留在理论层面,并没有系统地来阐述中文缺省项的识别方法和实现具体识别系统。
本文主要对中文缺省项识别的方法和系统进行了研究,具体的研究内容归纳如下:
1)对OntoNotes3.0的语料进行了详细的统计和分析,归纳总结了常见的六类缺省类别;探讨了基于规则的缺省项识别方法。通过对句法分析树的分析处理,首次提出了基于最小IP子树的缺省项识别方法。在两种不同的句法分析树上的实验结果表明本文的方法具有可行性。
2)探讨了基于机器学习的缺省项识别方法。通过对句法分析树的分析处理,得到了5组缺省识别的特征值,并由此构建了基于机器学习的缺省项识别系统。实验证明,基于机器学习的识别方法性能要高于规则方法。
3)提出了一种新的层次结构的缺省项识别方法。首先,利用依存信息对输入的最小IP子树进行过滤;然后,对通过过滤处理的最小IP子树进行缺省项识别。实验证明,该方法比前两种方法具有更好的识别性能。实现了一个中文缺省项识别和标注应用系统(基于机器学习方法)。