论文部分内容阅读
组块识别是自然语言浅层句法分析的重要任务之一。它通过采用“分而治之”的策略把句子解析成较小的单元来简化句子结构,并为进一步揭示这些单元间的句法关系提供基础。组块识别作为一种确定性很高的部分分析结果,有利于解决机器翻译中的歧义问题。组块识别还在信息检索、信息抽取、文本分类及语音识别等领域具有重要的应用价值。本文的目的是在词法分析的基础上,完成汉语句子的组块识别,为完全句法分析和其他自然语言处理任务提供基础。本文利用条件随机域(Conditional Random Fields,CRFs)方法进行汉语句子的组块识别研究,提出了基于CRFs的分布式策略与错误驱动技术相结合的组块识别方法。为了克服单一模板识别多类型组块的局限性,本文给出了一种分布式策略方法,它将11种类型的汉语组块进行分组,对不同组的组块类型选取适合该组类型识别的敏感特征,结合CRFs构建不同组的组块识别模型;为进一步提高组块识别结果,本文利用基于CRFs的错误驱动技术对组块进行自动纠错,将第一阶段CRFs的组块识别结果作为一般特征加入到第二阶段CRFs识别的特征模板中,通过CRFs统计学习其中的错误规律来进行纠错识别;最后本文通过分析并列关系结构对组块识别错误的影响,利用CRFs在选取上下文特征上的灵活性优势,抽取了并列关系词的上下文信息作为特征,来进一步改善组块的识别效果。实验结果表明,基于CRFs的分布式策略与错误驱动技术相结合的组块识别方法取得了较好的结果,系统开式测试的精确率、召回率和F值分别达到95.52%、91.21%和93.32%,好于CRFs方法和其他组合方法的组块识别结果。本文的研究成果可以应用于实际的机器翻译系统中,达到简化句子结构、提高机器翻译系统性能的目的。另外还可以进一步应用到信息检索、文本分类等自然语言处理领域。