论文部分内容阅读
随着互联网技术的发展和普及,电子文本的数量日益增加。电子文本的爆炸式增长造成了文本质量的下降,而基于人工进行审查和评估明显是不现实的。因此,文本语法纠错任务近年来吸引了越来越多的目光。得益于深度学习的飞速发展,机器翻译技术也取得了一系列重大突破,使得序列到序列网络在文本纠错任务中得到广泛应用。本论文设计了一种将统计机器翻译和神经机器翻译相结合的方法,主要工作如下:第一,预处理训练语料。预处理NLPCC 2018中文语法错误纠正(Chinese Grammatical Error Correction,CGEC)共享任务训练集,用于训练模型。预处理中文维基百科语料,用于训练中文词向量和N-Gram语言模型。预处理HSK动态作文语料,用以进行数据扩增。预处理SIGHAN 2013 CSC语料,用于拼写错误纠正模型。第二,本论文将统计学习与深度学习相结合,其N-Gram语言模型用来解决中文拼写错误。首先使用训练好的模型对语句中的词打分,将得分低的位置视为待纠错位置,基于SIGHAN 2013 CSC构建候选集,选择困惑度最高的句子。第三,本论文使用深度学习模型Seq2SeqAttention模型和Transformer模型来消除深层次错误,并通过数据清洗、数据扩增、子词级别建模、课程学习(curriculum learning)策略和遮蔽序列到序列(masked sequence to sequence)策略来提升模型性能。最后,采用一种模型集成的方法,将各个模型的输出送入N-Gram语言模型进行打分,选择得分最高的作为最终输出。第四,本论文在NLPCC 2018官方基准测试集上对本文设计的模型进行测试,实验证明了所采用的方法均提高了模型性能。其中模型集成方法性能最好,其F0.5值相比北京大学计算语言学研究中心得分从21.16提高到了26.14,提升了4.98个百分点,证明本文提出的模型有效。