印刷体文字识别系统的研究与实现

被引量 : 0次 | 上传用户:oicq35952268
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类进入信息化社会,各种文档资料呈几何级的增长,如何对这些海量资料进行高效、快速的保存和处理,成为计算机科学研究的热点问题。光学字符识别系统(OCR)就是将已有的海量信息高效地使用计算机识别并处理的一种技术,已经被广泛用于办公自动化、人工智能、信息压缩等领域。本文详细阐述了光学字符识别技术的算法流程,并对算法中的要点、难点问题如二值化、版面分析、分类器集成等做了大量实验和改进。本文的主要工作如下:(1)针对具有复杂版面的文档,以往的算法都是使用投影法来切分,但是投影法对于图文混排、兼有表格的复杂版面不能正确切分。本文采用基于连通域的方法,通过对不同连通域的特征分析,区分出识别有效区域和无效区域。实验结果表明,该方法克服了投影法的缺点,并取得了较好的切分效果。(2)汉英混排在字符切分中是一个较难的问题,我们根据字符间隔的等间距特征,区分出了文档中的英文区域和中文区域。然后,通过识别反馈算法,实现了汉字和英文的分离,并根据汉字部件合并的规则,实现了左右相邻结构汉字的合并。(3)汉字细化常常会出现畸变,目前常用的畸变校正算法的缺点是不能对合并半径进行合理估计,而且没有制定详细的合并规则。本文提出的算法不但为合并半径给出了合理的范围估计,而且制定了详细的合并规则,实验结果表明该方法能较好的校正细化畸变。(4)本文设计了一种适于汉字识别的分类器集成方案,既提高了系统识别的鲁棒性,又保证了识别率和识别速度。
其他文献
目的:运用现代科研思路方法对胡志强教授临证治疗偏头痛的用药规律进行全面深入地整理和收集,总结胡志强教授独特的辨治偏头痛的经验。方法:收集胡志强教授临床上有关治疗偏
汉代自杀现象频繁出现,与当时的社会环境有着密切关系。所处环境不同,自杀方式和自杀类型也随之不同。汉代自杀方式有以下几种:自刭、饮药、自缢、自刺、自溺、绝食、自焚、闭
报道了桑叶/马铃薯发酵饮料的生产工艺流程.重点介绍了马铃薯的蒸煮糊化、液化、糖化、发酵等工序的操作要点和工艺参数,介绍了桑叶汁制备的操作要点和工艺参数.制订了产品的
目的探讨腹腔镜超声(LUS)在肝癌射频消融(RFA)治疗中的应用价值。方法第一部分研究中分析了38例肝癌患者(45个病灶)的术前常规超声(US)以及术中LUS的检查结果,和手术病理及随
目的:探讨腰椎关节突关节不对称与腰椎间盘突出症发病的相关性。方法:从2008年~2010年间就诊的门诊和住院病人中选择L4/5椎间盘突出患者64例和56例正常人,行腰椎CT轴向扫描检
目的观察人工关节置换术围手术期抗菌药物预防性使用情况,探讨不同用药品种及用药维持时间与手术部位感染的相关性,为人工关节置换术围手术期抗菌药规范使用提供参考。方法选
[目的]调查分析中学生饮食习惯的现状和存在问题,为制定青少年危害健康行为的早期干预措施提供参考依据。[方法]按照整群抽样的方法选取深圳市某中学高1高2 400名学生为调查
目的:本研究把导师的经验方柴苓汤加减方与近年来常用于治疗慢性肾小球肾炎的肾炎康复片作比较,探讨两方对于慢性肾小球肾炎湿热证的治疗效果。方法:选取慢性肾小球肾炎湿热证
目的:组织细胞坏死性淋巴结炎(histiocytic necrotizing lymphadenitis, HNL)是一个误诊率极高的少见病,近年来开始引起临床医生的重视,对它的认识逐渐提高。本研究主要通过其
民办高职教育作为我国高等教育的一个类型和有机组成部分,在我国的高等教育领域发挥着重要作用。民办高职院校异军突起,在促进教育多元化、加速教育改革和创新步伐的同时,为