多类小字符集自适应字符识别技术及系统的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:hfrr0828
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了多类小字符集自适应字符识别技术及系统实现。本项目的背景是基于手写体文字识别技术的铁路轮轴卡片(表格)光电录入系统。在该项目中,需要识别的字符比较多,包括英文大写字母、阿拉伯数字、一些专用符号、部分汉字,这些字符集可能发生变化,要求识别精度比较高。我们在对字符识别技术进行深入研究的基础上,采取了多种技术措施完成了研究任务。 在字符识别技术方面,我们研究了各种神经网络模型在字符识别中的应用原理,经过比较,我们选用多层前向网络作为候选的字符分类器。另一方面,子空间方法和神经网络一样,也是灵活构造字符分类器、实现自适应字符识别的一个有力的工具,具有训练和识别速度快、识别精度高的特点。我们研究了学习子空间方法的原理,对基本学习子空间算法进行了改进,提出了增强的拒识规则,并改进了Oja的子空间维数选择算法。 自动选择合适的特征和特征提取方法是实现自适应字符识别系统的关键之一。传统的字符识别系统的适应能力之所以比较差,就在于人的先验知识在选择特征的过程中影响太大。我们研究的重点在于如何在没有人的先验知识的情况下自动提取合适的字符特征。我们从两个方面研究了字符特征的自动提取的问题。 一个方面是通过学习发现字符的不变特征。我们研究了几种统计特征提取方法,和基于自适应子空间自组织映射(ASSOM)神经网络提取字符的特征提取方法。 关于字符特征提取的另一个方面,从大量的已有特征中选择对该字符集最合适的特征。我们研究了基于粗糙集的字符特征选择方法,对候选特征进行初步选择,去除明显对分类作用不大的特征,并提出了一种快速的粗糙集约简算法。在进行了初步的特征选择后,再利用主分量分析方法对特征进行进一步的降维处理,去除特征间的相关性。 除了上述基于学习的字符识别方法外,我们还对可变形模板字符识别技术进行了研究。可变形模板方法可以解决一些统计和神经网络识别方法不能解决的一些问题,其突出的优点在于能充分利用人对字符形状的先验知识,不需要用大量的字符样本进行训练,它对解决小字符集识 重庆大学博士学位论文别问题具有一定的什值。我在 Michael Revow和 Kwok-Wai Cheung等人的单笔划的数字识别研究的基础上,对他们的方法作了一定改进,将其.应用到多笔划的英文字母的识别上c 在实用系统的研究中,为了提高字符的识别率,我们提出了一种表格描述和智能分析方法,通过表格描述和定义,将较大的字符集按表格w’出肚’v曰H匕/‘”’/*’山’皿仕状’p’出心’*儿人”可认八*‘丁”卞’义从’订 上中不同的填写位置分解为一系列较小的字符集,从而大大提高了识别精度。这是一种非常有效而实用的方法。此外,在我们提出的表格描述和分析方法基础上,我们实现了一套智能表格分割算法,其中包括一种利用表格线的单色表格的快速分割算法c 如果用一个方法固定的宇符程序来识别程序来识别所有这些字符集显然不能得到好的识别效果,我们需要识别系统能根据不同的字符集的特点自动作相应的优化和调整。为了解决多个字符集识别器的设计问题,我们提出井实现了一个能自动根据所要识别的字符集选择最优识别方案的自适应字符识别系统。该系统在传统的神经网络和统计学习方法的基础上,通过一个自适应控制模块,使系统能根据要识别的字符集自动选择合适的识别方案。该模型的主要思想是: 将各种字符特征提取方法和分类器形成一个函数库,我们随时可以对这个函数库进行扩充c自适应控制模块从函数库中按一定的规则选取合适的特征提取函数和分类函数,然后对识别器的参数进行训练;随后用测试字符样本作自动作识别率测试并对测试结果作详细记录,自适应控制模块根据测试结果自动对特征提取和分类器方案作调整,这样大大减轻了设计者的工作量。我们实现了所提出的自适应字符识别系统模型,并在实用中取得了较好的效果c
其他文献
近几十年来全球范围内环境污染越来越严重,已直接威胁到人类的生存与发展。太原是个千年古城,随着国民经济的发展,生态环境遭到破坏,环境的污染直接影响到人们的生产、学习
近年我国发生了多起紧急情况下患者拒签手术同意书的事件,这其中的重要原因是患者不信任医疗机构及其医务人员、‘不理解医方拟采取的医疗措施的必要性,不理解甚至误解手术同意
芷溪在百年的沧桑转变中慢慢定格,那些建筑,并没有因为年代的久远而老态龙钟,它们,依然耸立在后辈们的面前,在尘世的风雨中,将认人感觉到时间的分量。
年轻时,露丝在小镇报社任记者,与后来的丈夫唐.伦戴尔(Don Rendell)邂逅,她随后在英国《泰晤士报》当记者。1950年她嫁给了伦戴尔,当时才20岁。1999年,露丝丈夫身患癌症不治身亡,从
随着网络技术和多媒体处理技术的快速发展,数字产品在版权保护和内容真实性认证方面正受到越来越严峻的挑战。近年发展起来的鲁棒的和半脆弱的数字水印技术正逐步成为解决问题
(成都中医药大学 第二临床医学院,四川 成都 611137)  摘要:本文在梳理国内外学者关于体验式教学的文献和研究成果的基础上,通过教学实验将体验式教学融入到大学生心理健康教育课程中,考察其是否能提高课程教学实效。  关键词:体验式教学法;心理健康教育  中图分类号:G642.4 文献标志码:A 文章编号:1674-9324(2017)24-0169-02  一、前言  国内高校在上世纪90年代
通过对北京大学口腔医院十年间口腔修复学专业患者投诉类型的具体分析,本文认为:口腔修复学专业容易引起医疗纠纷且处理难度较大的诊疗项目是比较集中的;不满意服务质量和医院
摘要:本文分析了《水污染控制工程》课程的重点、难点及目前存在的问题,从完善课程教学内容、优化教学方法、创新实践教学环节及改革考核方式等方面进行探索,以达到提高教学质量、培养工程应用型人才的目标。  关键词:水污染控制工程;教学改革;实践应用  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2017)36-0113-02  一、引言  《水污染控制工程》是环境工程的重要专业
改革开放以来,我国农村的人情消费持续高涨,已经成为农民的沉重负担,但是人情消费依然存在并且持续增长。本文基于对当前农民人情消费现状的了解和分析,剖析维持这种消费持续
人事档案管理是人力资源管理的重要组成部分,本文通过讨论人事档案工作的重要性,挖掘分析了我国目前人事档案管理存在的一些问题,从而提出了一些人事档案管理工作中的一些对策,以