论文部分内容阅读
本文讨论了脱机手写体满文文本识别后处理系统的设计和实现,其中采用了在文本识别后处理中应用最广泛的技术,即基于隐马尔可夫模型(HMM)的后处理和基于词匹配的后处理方法。
论文首先叙述了少数民族语言信息化的现状及满文识别后处理的意义和必要性。从总体上描述了满文文本识别系统的结构和后处理在整个识别系统中的作用。然后,列举了在文本识别后处理过程中应用的比较成熟的和正在探索的一些方法。主要包括:基于词匹配的文本识别后处理、基于句法-语义的文本识别后处理、基于人工神经网络的文本识别后处理、基于统计方法的文本识别后处理。并且在讨论基于统计的文字识别的后处理时,着重的讨论了隐马尔可夫模型(HMM)在脱机手写体满文文本识别后处理中的基本思想和方法。在采用隐马尔可夫模型(HMM)进行文本识别后处理时,提出了一种有效估算单字识别的结果可信度(即单字识别置信度)的方法,准确的估算单字识别结果对进一步进行识别后处理具有重要的意义。接着对影响后处理的几个重要因素:语料库的规模,语料的选取,数据平滑做了重点讨论。
在讨论词匹配的后处理方法时,首先分析统计方法的不足:统计语言模型仅仅考虑了语言的上下文关系,但不考率任何的语法和语义关系。在实现中假定一个满语的语句是一个一阶或二阶马尔可夫链,这样实现简化的假设使发生错误的概率进一步增大。事实上,马尔可夫链只对非单词词组有较好的连接的关系。转移概率本身是由训练语料库决定,与实际文本有一定的偏差。然后介绍了词匹配方法的思想,最后提出词匹配法和隐马尔可夫模型(HMM)相结合的方法。两种方法的结合大大的提高了满文识别系统的识别率。最后对以后的工作提出了设想。
本文讨论的方法已应用在脱机手写体满文文本识别系统中,经过后处理模块的处理后,系统的识别率有一定的提高。但是,后处理模块发挥的好坏与单字识别模块的识别率有密切的关系,也就是说,较高的单字识别的识别率是后处理发挥良好作用的前提。