基于循环神经网络的英文写作错误检测及纠正的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:lcsuoboger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
英文是世界上使用最广泛的国际通用语言,其作为第二语言被越来越多的学习者(English as Second Language,ESL)所重视。但是因为文化、地域和生活习惯等差异,ESL学习者在学习英文时,面临听、说、读、写等各种各样的挑战,其中写作是最为重要也最为困难的一项,而语法错误是英文写作中最常出现的错误类型。英文写作语法错误检测及纠正(Grammatical Error Correction,GEC)的研究与实现,对英文学习者和英文教学者均具有极其重要的意义。本文针对英文写作语料中含有的语法错误等噪声对序列信息提取的影响问题,提出基于循环神经网络的序列标注模型;并针对英文写作中的语法错误,提出基于序列标注和序列到序列等两种英文语法错误检测及纠正方法。首先,本文提出的基于循环神经网络的序列标注模型,在ESL语料的词性标注中,准确率达到96.73%;同时,在新闻语料的词性标注中,该模型的准确率达到97.60%;在CoNLL2003命名实体识别任务中,Fi值达到91.38%。然后,本文将序列标注模型应用于英文语法错误检测及纠正任务,在冠词错误纠正中,取得38.05%的F1值,超过2013年CoNLL评测最优结果UIUC的冠词错误纠正F1值33.40%;在介词错误的纠正中,取得28.89%的F1值,超过UIUC的介词错误纠正Fi值7.22%。最后,结合序列标注模型,提出序列到序列模型,该模型在最近2014年CoNLL英文语法错误检测及纠正任务中,取得31.77%的Fo.5值,其中召回率为38.92%,优于2014年CoNLL评测最优结果CAMB的召回结果(30.10%)。本文的具体贡献可以归纳为以下几点:1.提出一种有效解决序列标注的神经网络模型。和以往标注模型不同,该模型在综合字符、单词、序列信息的同时,引入粗粒度学习,将标注过程分为粗细两个阶段,使标注过程更加稳健。2.提出一种基于序列标注模型的英文语法错误检测及纠正方法。该方法使用本文提出的序列标注模型,对语法错误进行标注,并按照标注的结果,对原始单词进行检测及纠正,避免传统方法需要人工提取大量特征的问题。3.提出一种使用序列到序列神经网络模型进行英文语法错误检测及纠正的方法,该序列到序列神经网络模型的Encode部分来自本文提出的序列标注模型,Decode部分引入Attention机制。该方法将原始序列直接映射到目标序列,不再区分错误类型。4.设计并实现一种融合序列标注模型和序列到序列模型的英文写作错误检测及纠正系统。
其他文献
随着化学计量学和计算机技术的快速发展,近红外光谱仪突破了其在传统农业中的应用局限,广泛应用于临床医学、石油化工、矿物质以及国防等领域,成为很多领域质量控制和品质分
低血糖可以发生在非糖尿病患者,也可以发生在糖尿病患者。一般情况下,当成人的空腹血糖数值低于3.9mmol/L就会出现低血糖的症状。当血糖水平在生理范围内下降时,胰岛素的分泌
按照以医养带康养、以康养集聚人气的思路,遵义市新蒲新区正努力构建集医疗、康复、保健、养生、养老于一体的医疗康养产业体系和覆盖城乡居民的多层次医疗康养服务体系。4月
为了准确描述从1E子网流入非1E级子网的核电站网络的信息流动,本文给出了一个基于核电站网络安全的新的信息流模型.该模型引入了将子网密级和客体密级相结合的二维密级函数的
通过拟合Nb2O5的晶体结构,建立了铌的经验势.模拟计算孤立铌杂质表明:最近邻Nb-O间距为2.13A,均匀向铌靠近.近邻Nb-U间距为3.84(A),次近邻Nb-U间距为5.48(A),小于正常晶格的U
初一,我们有幸相聚,是缘分;初二,我们欢乐度过,是幸福;今天,我们即将含泪离别。是真情。——题记
最近,由于同病房3个患者都有营养科的会诊,当我去进行宣教的时候,她们对每天所需的能量数值感到疑惑:1床31岁的年轻人和3床65岁的老奶奶所需的能量相差不多,但2床50岁的大妈
患者女,36岁。体检:B超发现左肾实质性占位。无明显症状和体征。
采用镍铬-康铜热电偶探测器对临界装置活性区内及外表面的温度动态过程进行监测.通过导热微分方程得出了温度平衡时Pu材料层、不锈钢层和聚乙烯反射层内温度分布,分析了活性
肺功能检查是临床上胸、肺疾病及呼吸生理的重要检查内容,可先于症状及影像学检查发现气道疾病,同时肺功能检查是慢性气道疾病诊断的金标准.对于早期检出肺、气道病变,鉴别呼