论文部分内容阅读
随着中国国际地位的提高,越来越多的外国人开始学习汉语,外国人在写作时会不自觉地引入语法偏误。对语法偏误数据集进行研究有利于对外汉语针对性的开展教学,对语法偏误自动识别研究有利于减轻教师的教学重担。本文研究了大规模现代汉语语法偏误数据集,统计和分析了出现语法偏误的词语,同时研究了语法偏误自动识别,提出了三种不同的模型进行实验,具体内容如下。(1)现代汉语语法偏误数据集统计分析。本文对两种大规模语法偏误数据集Lang-8和HSK进行统计分析,首先分别对数据集进行预处理,去除对统计无意义的数据,保留含有语法偏误的数据。然后采用不同的统计方法,统计出现语法偏误的实词、虚词,之后分别对统计结果进行分析,最后对比分析两种统计结果。结果显示,语法偏误是有规律的,容易出现语法偏误的词语有“的”、“了”、“在”等。(2)基于HSK数据集的现代汉语语法偏误自动识别研究。采用三种不同的模型进行研究:多特征的Bi LSTM-CRF模型、Bi LSTM-CRF与CRF联合模型、基于BERT和注意力机制的Bi LSTM-CRF模型。多特征包括词语、词性、虚词用法粗粒度、虚词用法细粒度、依存句法,特征之间相互组合。Bi LSTM-CRF与CRF联合模型联合两个模型的结果并进行融合得到最终预测结果。基于BERT和注意力机制的Bi LSTM-CRF模型,不同于BERT+Bi LSTM-CRF模型,本文提出的模型中BERT获取句子动态词向量形式,Bi LSTM对向量进行编码,Bi LSTM对编码的输出进行解码,同时自注意力机制获取解码端的序列内部信息,CRF对序列进行约束,从而得到最终预测结果。本文在CGED 2018数据集上进行测试,实验结果显示融入虚词用法和依存句法分析特征的模型在第一个子任务上F1值提升1个百分点,Bi LSTM-CRF与CRF联合模型在前两个子任务上F1值提升1个百分点,基于BERT的模型表现最优,取得三个子任务中最高F1值,分别为0.7482、0.5015、0.2521,在自动识别级别提升了5个百分点,在偏误类型级别提升了7个百分点,在位置级别提升了16个百分点。实验结果表明基于BERT的模型表现最优。