论文部分内容阅读
文本校对是出版工作的关键环节,在信息检索、光学字符识别和语音识别等领域有着广泛的应用。随着信息技术和出版业电子化发展,传统人工校对的方式已无法适应迅速增长的电子文本数量。中文真词错误指一个词虽然存在于词典中但不符合上下文语境。目前传统的真词错误自动校对算法主要依据局部上下文特征,没有很好的利用词与词间的关系。近两年,有学者提出基于深度学习seq2seq算法进行文本校对,该算法的优点是可以利用词向量和LSTM,通过长短距离词的语义对目标词进行校对。但由于文本校对过程中完全通过上下文词向量判断,输入输出都是序列,不可控性较强,可能会输出一些语义奇怪且无法解释的句子。首先,本文改进了传统的基于统计模型的校对算法,提出了以混淆集和N-gram语言模型为基础的CS-N-gram文本校对算法。其次,本文借鉴传统的校对算法和序列标注算法,提出了一种基于混淆集和序列标注的CS-BiLSTM-CRF文本校对算法,既引入上下文词向量对目标词进行校对,又通过混淆集对算法进行一些限制。实验结果表明,CS-BiLSTM-CRF算法与CS-N-gram算法相比,取得了更高的校对召回率和准确率。同时,本文根据错误的成因,对CS-N-gram算法的错误进行归纳,分析CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点。CS-BiLSTM-CRF算法能在邻接词未登入情况下对目标词进行校对,有效解决CS-N-gram算法最为棘手的问题,同时能结合长距离词语义进行更好的校对。但在一些可以直接通过局部上下文进行校对的情况下,由于词向量包含了多个维度的信息,导致在部分语义的判断上会有一些误差,CS-BiLSTM-CRF算法效果略逊于CS-N-gram算法。通过对CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点进行分析,本文提出了一种自动校对混合算法。该混合算法在未使用外部语料,不添加规则词典等人工干预措施的前提下,整体校对效果与单一算法相比有较大的提升,且该算法通用性较强,可直接应用于不同语料的真词错误自动校对,对中文真词错误自动校对研究有较大的意义。