论文部分内容阅读
在基于OCR技术的大规模文档录入系统中,自动检错可以大大降低人工校对成本。在日文OCR系统自动捡错中,日文单词因其动词度形容词、形容动词的词尾变化现象使自动分词变得比较困难。本文提出了一种基于词素的日文分词新方法.通过建立以词素为基础单位的分词词库。以最大长度优先词务匹配方法分割出文章中有词尾变化的日文单词,避免了传统日文分词中收录单词各种词尾变化形式造成分词词库过于虎大的问题。实验表明,本文提出的分词方法可以达到99.0%的分词正确率:将该方法运用在OCR捡错模块,当系统拒识率(即检错模堤中认为可疑的字