论文部分内容阅读
英文是世界上使用最广泛的国际通用语言,其作为第二语言被越来越多的学习者(English as Second Language,ESL)所重视。但是因为文化、地域和生活习惯等差异,ESL学习者在学习英文时,面临听、说、读、写等各种各样的挑战,其中写作是最为重要也最为困难的一项,而语法错误是英文写作中最常出现的错误类型。英文写作语法错误检测及纠正(Grammatical Error Correction,GEC)的研究与实现,对英文学习者和英文教学者均具有极其重要的意义。本文针对英文写作语料中含有的语法错误等噪声对序列信息提取的影响问题,提出基于循环神经网络的序列标注模型;并针对英文写作中的语法错误,提出基于序列标注和序列到序列等两种英文语法错误检测及纠正方法。首先,本文提出的基于循环神经网络的序列标注模型,在ESL语料的词性标注中,准确率达到96.73%;同时,在新闻语料的词性标注中,该模型的准确率达到97.60%;在CoNLL2003命名实体识别任务中,Fi值达到91.38%。然后,本文将序列标注模型应用于英文语法错误检测及纠正任务,在冠词错误纠正中,取得38.05%的F1值,超过2013年CoNLL评测最优结果UIUC的冠词错误纠正F1值33.40%;在介词错误的纠正中,取得28.89%的F1值,超过UIUC的介词错误纠正Fi值7.22%。最后,结合序列标注模型,提出序列到序列模型,该模型在最近2014年CoNLL英文语法错误检测及纠正任务中,取得31.77%的Fo.5值,其中召回率为38.92%,优于2014年CoNLL评测最优结果CAMB的召回结果(30.10%)。本文的具体贡献可以归纳为以下几点:1.提出一种有效解决序列标注的神经网络模型。和以往标注模型不同,该模型在综合字符、单词、序列信息的同时,引入粗粒度学习,将标注过程分为粗细两个阶段,使标注过程更加稳健。2.提出一种基于序列标注模型的英文语法错误检测及纠正方法。该方法使用本文提出的序列标注模型,对语法错误进行标注,并按照标注的结果,对原始单词进行检测及纠正,避免传统方法需要人工提取大量特征的问题。3.提出一种使用序列到序列神经网络模型进行英文语法错误检测及纠正的方法,该序列到序列神经网络模型的Encode部分来自本文提出的序列标注模型,Decode部分引入Attention机制。该方法将原始序列直接映射到目标序列,不再区分错误类型。4.设计并实现一种融合序列标注模型和序列到序列模型的英文写作错误检测及纠正系统。