基于统计的汉字识别后处理研究

被引量 : 0次 | 上传用户:dingmx2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的飞速发展,需要将大量现实生活中各种介质上的文本数字化,为了提高效率,减轻人的负担,出现了OCR技术——即光学字符识别。近年来,汉字OCR研究已经取得了很大的进步,许多商品化的识别系统成功的走向市场。但是,汉字结构复杂且变化性大的特点往往使单字识别率受到一定的限制。只依靠单纯的单字符识别,识别率已经很难得到进一步的提高。需要在单字符识别基础上,利用语言学知识和文本的上下文相关信息进行后处理。 本文介绍了汉字识别后处理的研究意义和后处理的一些方法,并采用基于统计的后处理方法对单字符识别结果进行了后处理。通过对2000年全年的《人民日报》文本(约1930万字)进行二元字字同现统计,得到汉语文本中字与字之间的概率制约关系。根据Markov语言模型,将同现概率这种文本上下文相关信息应用到汉字识别后处理中。对单字符识别得到的结果进行二次加工,在一定程度上提高了整个系统的识别正确率。
其他文献
住房作为居民必须的生活资料,是每个国家必须解决的重要问题。在改革开放的今天,我国政府在提出大力解决城镇居民的住房问题的同时,又将其作为“小康”生活的一项重要标志,并做出
随着社会经济和高等教育的发展,深圳对高层次人才的需求越来越强烈。深圳大学城的创建为探索高等教育发展和高层次人才培养模式开拓了新路。由三所著名大学研究生院组成的大
目前随着桥梁的修建时间的日渐久远,交通荷载的不断增长对于桥梁的承载能力的要求越来越高,桥梁的承载能力逐渐降低,从而要求人们对于桥梁的承载能力进行检测评估,而众多数量的桥
南京中医药大学汪受传教授对儿科疾病特别是小儿脾胃病及小儿癫痫有独到见解和研究。本文撷取汪教授治疗小儿癫痫“发作期豁痰定痫, 休止期化痰断痫,以化痰法贯穿始终”的整体
自二十世纪九十年代以来,我国科技企业的迅猛发展,有力的拉动了我国经济的发展,通过多年的发展,从技术、市场到规模已经步入一个快速成长阶段。从我国科技企业成长的历程来看,拥有
<正>卵巢癌是女性生殖器三大恶性肿瘤之一,随着手术、化疗、放疗和生物靶向等综合治疗的不断发展,患者的生存期逐渐延长。随着医学模式的转变,治疗疗效的判定不仅有生物学指
本文在统计大规模真实语料的基础上,系统分析了单个"这"和"那"的篇章用法及其明显不对称现象,把它们在篇章中的不对称总结为:空间距离远近的对立、时间距离远近的对立、定指
主要介绍基于Microsoft speech sdk5.1的英语语音合成教学软件的设计原理、实现方法和功能。
襟翼在各种飞机上普遍应用,它可以在短时间内增加飞机升力,主要用在飞机起降过程和特殊紧急情况下。多缝富勒襟翼在襟翼舵面偏转的同时发生较大幅度的后退,增加机翼整体弯度和机