基于统计的汉字识别后处理研究

被引量 : 0次 | 上传用户：dingmx2008

【摘要】

：

随着计算机和网络技术的飞速发展，需要将大量现实生活中各种介质上的文本数字化，为了提高效率，减轻人的负担，出现了OCR技术——即光学字符识别。近年来，汉字OCR研究已经取得了很大

【作者】

：

彭涛

【发表日期】

：

2003年期

【关键词】

：

汉字识别后处理文本统计同现概率 Markov模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机和网络技术的飞速发展，需要将大量现实生活中各种介质上的文本数字化，为了提高效率，减轻人的负担，出现了OCR技术——即光学字符识别。近年来，汉字OCR研究已经取得了很大的进步，许多商品化的识别系统成功的走向市场。但是，汉字结构复杂且变化性大的特点往往使单字识别率受到一定的限制。只依靠单纯的单字符识别，识别率已经很难得到进一步的提高。需要在单字符识别基础上，利用语言学知识和文本的上下文相关信息进行后处理。本文介绍了汉字识别后处理的研究意义和后处理的一些方法，并采用基于统计的后处理方法对单字符识别结果进行了后处理。通过对2000年全年的《人民日报》文本(约1930万字)进行二元字字同现统计，得到汉语文本中字与字之间的概率制约关系。根据Markov语言模型，将同现概率这种文本上下文相关信息应用到汉字识别后处理中。对单字符识别得到的结果进行二次加工，在一定程度上提高了整个系统的识别正确率。

其他文献

济南市城镇商品房价格合理化探讨

住房作为居民必须的生活资料，是每个国家必须解决的重要问题。在改革开放的今天，我国政府在提出大力解决城镇居民的住房问题的同时，又将其作为“小康”生活的一项重要标志，并做出

学位

商品房价格房地产市场市场分析

人才培养定位与教育环境营造研究——深圳大学城高层次人才培养探索

随着社会经济和高等教育的发展,深圳对高层次人才的需求越来越强烈。深圳大学城的创建为探索高等教育发展和高层次人才培养模式开拓了新路。由三所著名大学研究生院组成的大

期刊

人才培养定位教育环境营造

现役钢筋混凝土梁的弯区裂缝特征与桥梁检测评估的试验研究

目前随着桥梁的修建时间的日渐久远，交通荷载的不断增长对于桥梁的承载能力的要求越来越高，桥梁的承载能力逐渐降低，从而要求人们对于桥梁的承载能力进行检测评估，而众多数量的桥

学位

钢筋混凝土裂缝检测评估

试析针灸的活血化瘀作用

期刊

活血化瘀气血运行

汪受传教授治疗小儿癫痫经验介绍

南京中医药大学汪受传教授对儿科疾病特别是小儿脾胃病及小儿癫痫有独到见解和研究。本文撷取汪教授治疗小儿癫痫“发作期豁痰定痫，休止期化痰断痫，以化痰法贯穿始终”的整体

期刊

汪受传小儿癫痫发作期休止期治疗经验

我国科技企业人才流失原因分析及解决对策

自二十世纪九十年代以来，我国科技企业的迅猛发展，有力的拉动了我国经济的发展，通过多年的发展，从技术、市场到规模已经步入一个快速成长阶段。从我国科技企业成长的历程来看，拥有

学位

科技企业人才流失原因分析对策

卵巢癌患者生活质量评定及干预措施的研究进展

<正>卵巢癌是女性生殖器三大恶性肿瘤之一,随着手术、化疗、放疗和生物靶向等综合治疗的不断发展,患者的生存期逐渐延长。随着医学模式的转变,治疗疗效的判定不仅有生物学指

期刊

卵巢癌生活质量评定干预

单个“这”和“那”篇章不对称研究

本文在统计大规模真实语料的基础上,系统分析了单个"这"和"那"的篇章用法及其明显不对称现象,把它们在篇章中的不对称总结为:空间距离远近的对立、时间距离远近的对立、定指

期刊

指示代词“这”“那”篇章不对称认知

基于Microsoft speech sdk5.1的英语语音合成教学软件的设计与实现

主要介绍基于Microsoft speech sdk5.1的英语语音合成教学软件的设计原理、实现方法和功能。

期刊

Microsoft speech sdk5.1语音合成教学软件

大型运输机多缝富勒襟翼运动机构设计研究

襟翼在各种飞机上普遍应用，它可以在短时间内增加飞机升力，主要用在飞机起降过程和特殊紧急情况下。多缝富勒襟翼在襟翼舵面偏转的同时发生较大幅度的后退，增加机翼整体弯度和机

学位

增升装置富勒襟翼圆弧轨道非圆弧轨道螺旋线轨道

基于统计的汉字识别后处理研究

与本文相关的学术论文