论文部分内容阅读
语言是人类沟通的主要工具,英语是国际通用的交际语言。进入21世纪,随着世贸组织的成功加入、北京2008奥运会和上海2010世博会的相继成功申办,英语在中国与全球政治、经济、文化、科学技术的每一次交流中扮演着越来越重要的作用。中国学生从小学就开始学习英语,一直到大学,无论是升学、找工作还是出国留学,都少不了英语考试,中国学生也越来越注重对英语的学习。长期以来,英文写作是衡量英语学习者英文水平的重要手段。然而,中国学生的英文写作水平并不乐观。由于中西方文化存在多方面差异,英汉语言也存在许多不同,中国学生的英文作文中经常会出现各种类型错误。教师的教学任务很重,作文评阅既费时又费力,逐一批改学生的每一份作文,任务更加繁重。利用计算机检查中国学生英文作文中的错误,并对错误给出校正意见,可以减轻教师负担,直接促进学生更多地参与写作实践,从而提高学生英文写作水平。本文围绕自然语言处理、单词拼写校正、语法错误检查的理论及关键技术的研究展开,主要研究工作如下:(1)基于NLP工具的学生英文作文预处理。详细分析自然语言处理的各个步骤,使用Standford CoreNLP工具包对学生英文作文进行分词、词性标注和命名实体识别,使用MorphAdorner工具包中的词形还原工具Lemmatizer将学生英文作文中的单词还原成原形,为单词拼写校正和语法错误检查工作打下基础。(2)单词拼写错误检查与校正。列举中国学生英文作文中出现的单词拼写错误类型,基于拼写错误检查的理论与算法,采用查字典法检查学生英文作文中的非词错误,采用最小编辑距离算法校正非词错误,研究将n-gram模型理论运用到真词错误检查上。(3)语法错误检查。在基于统计的语法错误检查方法中,采用词性bi-gram模型代替单词bi-gram模型。重点研究利用规则匹配的方法检查学生英文作文中的语法错误:首先,详细分析中国学生英文作文中常见语法错误类型及原因;然后,通过确定算法实现某些特定类型的语法错误检查;最后,对其他无法通过确定算法实现语法错误检查的语法错误类型,细分为各种可能出现的错误情形并分析错误特点,人工编写由单词和词性标记组成的、用XML格式存储的语法错误规则,通过规则匹配的方式检查这些类型的语法错误。