论文部分内容阅读
汉字识别后处理中,当候选字集不含有正确字时,文本识别率的提高受到很大限制,该文基于噪声信道理论,提出一种扩充候选字集的方法,使候选字集尽可能地包含有正确字。非训练样本测试中,在扩充100个候选字的情况下,约80℅的正确字可以找回。语言模型为基于字的Bigram时,脱同手写体汉语文本识别率较扩充候选字前的90.71℅提高至93.10℅。