基于非完全切分和投影归一化的英文字符识别

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:Jul-83
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球经济一体化和计算机网络的发展,需要处理的印刷英文材料也在不断增长,传统的键盘输入已经远远不能满足需要,如何解决大批量文字资料的输入成为模式识别领域一个急需解决的问题,另外在快速邮政分拣系统、车牌识别、身份证识别等等计算机领域都需要解决印刷体字符的识别问题。 OCR正是解决这些问题的技术。OCR识别技术自从上个世纪三十年代诞生以来,经过几十年的发展,尽管在发展过程中遇到了不少前所未有的障碍,OCR技术已经取得了很大的进步和成就,并且成为当今模式识别领域最活跃的内容之一。它综合了数字图像处理、计算机图形学和人工智能等多方面的知识,并在计算机及其相关领域中得到了广泛应用。 本文主要研究英文印刷体字符的识别问题。本文先是较为详细的介绍了OCR识别技术的发展历程、研究现状,并在各章节中详细介绍了各模块的技术原理。英文印刷体字符识别的难点和热点之一是粘连字符的切分问题,本文研究统计发现:粘连字符的个数有限且比较固定,并且粘连字符中的主体是两个字符的粘连。由此本文提出了非完全字符切分的思想,经实验证明,实验结果较好。 OCR技术的核心是特征向量的提取,特征的提取和选择对识别系统至关重要,它基本上决定了识别系统的性能和识别精确度,甚至还可能影响到整个系统的识别的成功与否。本文提出了一种基于投影归一化的字符特征提取方法,实验结果表明该特征对字符大小的变化具有较强的适应能力。虽然它也会造成一定的误识率,但是它具有容易计算和字号大小适应性强的优点,因此可以作为字符识别的一种比较有效的特征。 本文设计实现了一个英文字符识别系统,实验表明,该系统具有良好的识别效果,同时也证明了本文提出的一些算法思想的合理性、正确性和科学性。
其他文献
科学计算可视化是20世纪80年代后期提出并发展起来的一门新技术,随着立体可视化的出现,可视化技术更是被推上学术研究的舞台,成为众学科瞩目的焦点。 大量精确的数据是使
入侵检测系统是指能够自动识别计算机系统内入侵行为的系统,它可以检测出内部用户或外部入侵者的非授权使用、误用和入侵等异常行为模式,保护计算机系统的安全。其关键和核心
随着Internet的高速发展,网络信息已经由传统的以文字图片为主发展为以音视频为代表的多媒体信息。对于网络视频直播等一对多的大规模视频传输,组播是一种理想的解决方案。但
近年来互联网的迅猛发展带动了各种网络产业的兴起,多样的通讯模式,繁多的网络应用应运而生。P2P网络对等通信的独特性使得其广泛应用在网络数据下载、网络通讯等各个方面,因此
在信息时代,市场环境变化剧烈。面对全球日益激励的市场竞争,企业特别是中小企业应该充分利用各个方面的资源为自己服务,以提高自己的核心竞争力。而在网络化制造模式下,资源
在软件安全领域,软件故障树分析法是一种重要的软件危害分析方法,但是,软件故障树的建模和分析是非常繁琐费时的,因此,本文将计算机辅助技术引入软件故障树的建模和分析之中,提出了
本文主要是对编钟乐舞动作编排技术进行了研究.简述了面向编钟乐舞的虚拟角色的动作库的制作过程.着重分析了舞蹈文法下的动作归类及其对应关系.探讨了基于情感模型下的动作
互联网技术和移动通信技术的迅猛发展和相互逐步融合,已使“IP协议将成为统一的网络平台”成为业界的共识。人们渴望通过自己手中的移动终端设备接入互联网络,并且享受像固定
本课题来源于大庆采油一厂电能量智能监控及计费系统。该系统基于GPRS数据传输技术,它是电力部门进行电量实时传输,智能监控,进行电量、线损、网损计量和统计分析,以及电费核算的自动化工具。从应用目的,采集数据,功能指标等各方面来看,它都有别于传统的SCADA系统和MIS系统。 本论文以大庆采油一厂为研究对象,详细讨论了系统开发中所使用的技术:GPRS、面向对象技术、数据库技术;并且探讨了系统开发
智能计算机辅助教学(Intelligent Computer Assisted Instruction,简称ICAI)以认知学和思维科学为理论基础,通过研究人类学习思维的特征和过程,将人工智能技术应用于计算机辅