论文部分内容阅读
随着计算机和网络技术的飞速发展,需要将大量现实生活中各种介质上的文本数字化,为了提高效率,减轻人的负担,出现了OCR技术——即光学字符识别。近年来,汉字OCR研究已经取得了很大的进步,许多商品化的识别系统成功的走向市场。但是,汉字结构复杂且变化性大的特点往往使单字识别率受到一定的限制。只依靠单纯的单字符识别,识别率已经很难得到进一步的提高。需要在单字符识别基础上,利用语言学知识和文本的上下文相关信息进行后处理。 本文介绍了汉字识别后处理的研究意义和后处理的一些方法,并采用基于统计的后处理方法对单字符识别结果进行了后处理。通过对2000年全年的《人民日报》文本(约1930万字)进行二元字字同现统计,得到汉语文本中字与字之间的概率制约关系。根据Markov语言模型,将同现概率这种文本上下文相关信息应用到汉字识别后处理中。对单字符识别得到的结果进行二次加工,在一定程度上提高了整个系统的识别正确率。