论文部分内容阅读
随着自然语言处理中词法分析的日趋成熟,句法分析已经成为当前研究的重点和难点,组块识别的提出是为了降低完全句法分析的复杂性。通过采用“分而治之”的策略将句法分析分为组块识别和组块间关系分析,这样将词级的处理转换为组块级的处理,降低了句法分析的难度。本文的目的就是在词法分析的基础上,完成汉语句子的组块识别,为完全句法分析和其他自然语言处理任务提供基础。论文阐述了组块识别的研究现状及研究意义,给出了本文研究的组块定义及组块分类,研究并实现了基于特殊隐马尔可夫模型(Hidden markov model,HMM)、支持向量机(Support vector machine,SVM)以及条件随机域(Conditional random fields,CRF)的组块识别系统,应用特征扩展和voting组合法改善组块识别结果。文中给出了特殊HMM、SVM、CRF三种统计学习模型的识别效果。通过错误数据分析,发现特殊符号、并列关系以及较粗的词性会导致识别错误,并针对这些问题提出了一个特征扩展方法。在此基础上,给出了一种基于标点符号分割段的voting法结合三种统计模型,进一步改善了组块的识别效果。实验表明,三种基本组块识别模型都取得了较好的结果,其中特殊HMM组块识别结果的F值为86.01%,SVM组块识别结果的F值为90.89%,CRF组块识别结果的F值为91.08%,从实验上验证了三种模型的有效性。在引入特征扩展特征和voting组合法后,组块识别结果的F值提高到91.39%。本文的研究成果可应用于实际翻译系统中,达到简化句子结构、提高机器翻译系统整体性能的目的。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。