英文单词OCR系统的分割算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:caohuyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
英文识别OCR关键技术包括图像的二值化、文本分割、倾斜校正、单词字符分割、字符特征提取、字符识别以及后处理.相关工作还有字符模板的建立,后处理词典的建立等等.目前英文单字符识别技术在国内外都已经发展的较为成熟,而对于整个的单词,由于存在字符粘连,多字体等情况造成分割失误,使总体识别率尚不能达到很高水平.所以字符串的分割是单词识别的核心模块.对于单词分割,当前存在的方法主要归为三类:一类是基于图像分析分割,第二类是基于图像识别分割,另一类是整体优化识别分割.该文重点分析分割方法,并提出方法改进.该文深入研究了英文单词字符串分割的方法,针对当前分割算法的不足,提出了改进的投影算法、改进的连通域分割算法和应用马尔可夫算法进行粘连字符分割的方法.在投影算法中对图像增加了基线高度归一化、腐蚀膨胀等处理,增加了投影阈值分割的可行性和准确性;在连通域分割算法中提出了新的连通域合并规则,使切分出的单字符图像更具有完整性,提高了单字符的识别率;针对连通域分割算法对粘连字符图像的适应性不强的弱点,提出了在连通域分割失败后采用马尔可夫最优路径分割算法再分割,进行算法合并的思想.该文中提出了一种新的基线检测方法,缩短了基线检测的时间,提高了基线检测的精度,在字符高度归一化阶段提出了采用基线高度归一化的思想,使字符能真正归一化到相同字号,并在字符识别阶段采用基线进行预分类的方法,减少了单字符匹配的次数,提高了单字符识别率.该文在后处理阶段,提出了采用长度限制搜索词表的方法,缩短了后处理时间,提高了后处理效率和准确度.实验表明,在系统中应用该文所提出的一系列改进算法之后,其它模块采用方法相同的情况下,英文单词识别系统的识别率有了一个较大的提高.
其他文献
近年来,基于非结构网格的数值模拟已经成为国际上油藏模拟的一个重要发展方向,也是下一代油藏模拟软件不可或缺的重要功能之一.本文基于中心已有工作,对非结构网格油藏数值模
软件质量作为软件产品的一个重要属性,引起人们的重视,特别是那些关系到国计民生的行业,尤其是航天型号软件对软件的质量有极高的要求.软件质量可以通过额外的软件测试来评定
税收网上申报是指纳税人将有关纳税申报的电子数据,通过计算机网络传递给税务机关,完成纳税申报手续的工作。它利用计算机、互联网等先进手段,使纳税申报更加方便、快捷、高效。
近些年来,生物特征识别技术因其良好的安全性越来越多的应用于身份识别。生物识别技术是利用人类自身生理或行为特征进行身份验证的一种解决方案,具有不可复制的特性。人体的生
需求工程是软件工程中最复杂的过程之一,其复杂性来自于客观和主观两个方面.从客观意义上说,需求工程面对的问题几乎是没有范围的.由于应用领域的广泛性,它的实施无疑与各个
三维地形生成技术是虚拟现实领域中的重点研究方向,其主要应用于虚拟战场环境仿真、城市景观规划、虚拟旅游、飞行模拟器训练及3D游戏等众多领域。随着航空航天、卫星遥感技
基于内容的图像检索是信息检索的重要分支,其检索所需的信息是从图像本身提取.它的目标是从海量的数字图像数据中检索出用户需要的图像.如今,它在网络安全、预防犯罪、知识产
遗传异质性(genetic heterogeneity)是生物信息学研究领域中的重要研究方向之一,也是遗传学中普遍存在的现象.因此,国内外很多专家对遗传异质性进行了研究,但是传统的遗传异
电子邮件服务是Internet网络应用中除了http服务之外应用得最广泛的服务.随着Internet的广泛应用,电子邮件也成为人们日常交流中不可或缺的手段.近年来垃圾邮件在互联网上泛
  拒绝服务(DoS)攻击日益严重地威胁着Internet安全,而分布式拒绝服务(DDoS)攻击破坏性更大,更难防范。本文介绍了拒绝服务攻击的基本概念和发展情况,通过几种常见攻击工具的