论文部分内容阅读
在缺乏标注数据的条件下本文把藏文正字检错任务视为一个分类问题,首先从语言知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT作为分类模型,最后为了证明本方法的有效性,构建两个基线模型和三种不同领域的测试集,实验结果显示本方法的结果优于两个基线模型.本方法在相同领域测试集上句子分类的正确率达到93.74%,不同领域测试集上也能达到83.6%.对错误音节的识别结果为74.53%,同时对无错误音节的误判率只有2.3%.