基于卷积神经网络手写文字识别算法研究

来源 :科技信息·下旬刊 | 被引量 : 0次 | 上传用户:guanjuntpplgj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:中文手写文字识别在新的手写数据库的基础上,已经有了比较大的发展,研究的方向也趋近于更加贴近真实的不加限制的手写文本识别,但手写汉字识别的难点依然没有被攻破,汉字数量大,结构复杂,一些汉字的形态相似以及个人书写风格多种多样等因素造成了手写汉字的识别率不尽如人意。本文将研究重点放在手写汉字识别的特征提取和分类器训练过程,通过基于卷积神经网络(Convolutional neural network,CNN)技术的算法,训练出具有较高识别度的手写汉字识别系统。
  关键词:卷积神经网络;手写汉字识别;深度学习
  一、手写汉字识别现状
  传统的手写汉字识别方法基于光学字符识别(Optical Character Recognition,OCR)技术,其识别过程主要分为四个部分:汉字图像的预处理、特征提取、分类器训练、后处理。
  1.手写汉字图像的预处理过程;
  对汉字图像的预处理主要包含两大模块,即汉字图像的处理和汉字字形的校正。手写汉字的原图像通常会有分辨率不高、噪声强等问题,通常采用灰度增强、二值化、平滑去噪、归一化等方法使汉字图像更容易被分割和识别。
  2.手写汉字图像的特征提取过程;
  对汉字图像的特征提取包括结构特征提取和数字特征提取,汉字图像的结构特征是指手写汉字的笔画和形态之间的关系,汉字图像的结构特征虽然能够比较好的表示汉字的特征,对不同汉字的形态变化也有一定的适应能力,但一般提取的难度较大。而数字特征的提取通常具有较好的稳定性且易于提取。对数字特征的提取,一般采用Gabor法、梯度法等等。
  3.手寫汉字图像的分类器训练过程;
  在经过了特征提取后,将提取出的字符特征通过支持向量机算法(Support Vector Machine,SVM)进行训练,SVM算法一般针对二值进行分类,将其应用于多类问题,通常可以通过将多个二值子分类器进行组合来实现多分类器的构造。
  4.手写汉字图像的后处理过程;
  即便再精确的算法也难免有一定的错误率,在单字识别后,通常采用NLP(Natural Language Process)技术,通过词法切分和语法匹配来提高识别的正确率。
  5.传统OCR技术的优缺点;
  分析以上基于OCR技术过程的手写汉字识别,其优点和缺点都很明显,优点即算法的实现很简单,训练所需的时间较短,可以迅速作出预测。缺点即对输入的文字图像质量和手写字体的要求较高,在特征提取过程中容易造成信息的丢失,使得错误率较高。
  二、基于卷积神经网络的手写汉字识别技术
  1.卷积神经网络与文字处理简介
  卷积神经网络(Convolutional neural network,CNN)是深度学习中极具代表性的网络结构之一,其在模式识别和图像处理方面均取得了很大的成功。在图像处理的过程中,我们往往会将图像看成是一个或多个的二维向量,常见的手写体汉字图像一般可以看成一个28*28*3(宽28像素*高28像素*RGB三通道)的三张二维图像。传统的神经网络采用全连接的方式,即输入层到隐藏层的神经元都是完全连接的。这种方式需要处理的参数量极大,就使得网络训练十分耗时甚至难以训练,而CNN则通过局部连接和权值共享等方法极大的降低了计算量,使得训练所需的参数大幅减少。因此,相比传统的OCR技术,基于CNN技术进行的手写汉字识别的整体结构明显得到简化。
  2.在激活函数方面的创新。
  我们在传统CNN的LeNet-5模型的基础上,将该系统模型的激活函数sigmoid函数和双曲正切函数(tanh函数)优化为纠正线性单元(Rectified Linear Units,ReLU)作为激活函数。
  ReLU函数公式如下:
  由以上公式可知,ReLU函数为一个分段函数,即让所有的函数值中的负值等于0,正值不变,这种做法使得神经元的工作具有了单侧抑制性,稀疏后的模型则能够更好的提取相关特征,拟合训练数据,并极大的降低了计算量。
  运用了Dropout方法减少训练时间并防止过拟合。
  在标准的神经网络中,每个参数都会被调动改变,使得损失函数最终被较少,神经元就可以通过这种方式修正其他单元的错误。但这种计算方式可能会遭成协调变得过于复杂,或者出现只依赖某些神经元的情况,反而导致计算量过大甚至过拟合的情况出现,而Dropout方法则以概率p舍弃神经元并使其它神经元以概率保留,舍弃的神经元的输出都被设置为0。这样就可以让更多的神经元参与到最终的输出当中,阻止神经元的共适应。
  对应的公式变化如下:
  很多错误是由相似字的原因造成的,这些汉字形状极为相似,有些笔划的区别又非常小,使得卷积神经网络这种对平移和扭曲不敏感的模型难以对其进行区分,限制了识别率的进一步提升。
  总结与展望:
  本文将卷积神经网络应用于手写文字识别之中,由于卷积神经网络具有良好的特征提取和表达能力,在手写汉字识别方面取得了一定的效果,但该方法仍存在着许多的不足,一方面,识别率依然未能达到预期,很多错误是由相似字的原因造成的,这些汉字形状极为相似,有些笔划的区别又非常小,使得卷积神经网络这种对平移和扭曲不敏感的模型难以对其进行区分,限制了识别率的进一步提升。另一方面,卷积神经网络的卷积层中存在大量的滤波器组,这些滤波器组协同对输入的数据进行特征提取,使得卷积神经网络具有较好的特征提取性能,但也导致了训练难度的增加,在识别过程中产生了大量的冗余过程,如何能够减少卷积神经网络的冗余并保证其稳定的识别能力,将是我们接下来研究的主要方向。
其他文献
摘要:随着社会的不断进步和我国经济的快速发展,社会各界对档案的重视程度大大提高,人们的档案意识逐渐增强,档案工作者的素质格外重要。在这种形势下,对档案工作者的自身素质的要求越来越严格,因此档案工作者必须提高自身的综合素质来适应时代的发展。  关键词:档案;工作人员;综合素质  一、加强政治修养,提高政治思想素质。  对档案工作者的政治素质的要求,是由档案工作的性质和特点决定的,档案工作是维护党和国
期刊
摘要:物联网和互联网等逐渐成为现代社会大数据发展的标志,因此,只有适应大数据时代发展的需求,档案工作才能得到更加长久的发展。大数据主要是指通过现代的网络渠道来对大量的信息进行储存,并对其进行智能化的处理,把信息中的价值进行提炼,并进行展示让其更好地为人们所用,让档案的价值得到更好的体现,进一步的促进社会的发展。本文就大数据时代的档案价值进行研究,希望能能够对档案进行更好的利用和开发。  关键词:大
期刊
摘要:为了保证事业单位中的档案管理工作在信息化条件下有良好的发展,应能认识到信息化对于档案文件管理重要性,并能结合实际的管理工作需要和信息化发展特点,制定科学的档案文件信息化方案。本文就信息化背景下事业单位当中的档案管理进行了分析。  关键词:档案;管理;信息化;机关;事业单位  信息化数据处理技术现代各领域都深远影响,而这种处理模式对于事业单位当中的档案管理工作也有积极影响。在新时代需要档案管理
期刊
摘要:随着改革开放,干部领导职务终身制的废除,干部人事档案的改革,多种经济成分的形成,社会主义市场经济的建立和发展,人事档案管理的这种“终身制”已越来越不适应这种新情况、新形势了。对这种终身制进行必要的改革,以适应我国干部人事制度的改革,适应社会主义市场经济的发展,适应现代化建设的需要。  关键词:人事档案;终身制;改变;必要条件  不论干部、学生、工人等人员的档案,随人走的制度,也就是说人一生不
期刊
摘要:移动化档案利用服务是在新媒体环境下,对传统档案利用服务方式的重大变革,其服务形式随着技术的发展日趋多样化,除早期的短信服务、WAP网站服务、手机报、手机杂志、手机电子书外,以往作为档案网络服务平台的各种网络新媒体形式也开始移动化,移动应用与移动社交服务日益多样化,移动档案馆的建设也成为可期待的发展愿景。本文对移动化档案利用服务的特点及未来发展趋势进行分析,旨在实现档案利用服务泛在化。  关键
期刊
摘要:新时期,我国生产力与生产水平的大幅度提升,带动了各类科学技术水平的稳步提升,互联网、信息化技术已广泛应用于档案管理工作中,初见成效。但值得注意的是,当前我国传统的档案管理模式已难以满足日益增长的企业发展需求,现有的管理水平与日益复杂的档案工作之间存在尖锐的矛盾,档案管理水平有待提升。  关键词:档案管理;改革;现状;分析  近年来,社会主义市场经济高速运转,为各行业领域的迅猛发展注入了新时代
期刊
摘要:随着中国旅游市场的持续稳步增长,基于大数据的全域旅游正深刻影响旅游业,为游客带来了更加个性化的服务,同时也为旅游企业提供了更加精准化的营销手段,从而推动了旅游业的整体升级。本文从当前旅游信息化需求入手,阐述了基于大数据的全域旅游发展概况和基本框架,旨在提高大数据在全域旅游中的应用。  关键词:大数据;智慧全域旅游;需求;发展概况;应用  一、当前旅游信息化需求分析  通过分析旅游行业本身,在
期刊
摘要:信息时代对高校图书馆应该兼具信息齐全,功能完善,服务个性化等特点的现代化要求。本文基于大数据背景下,通过对图书馆中一卡通信息分析,进行了新形势下高校建立个性化图书馆探讨,并对高校校图书馆的现代化管理提供参考意义。  关键词:大数据;高校;图书馆;一卡通  大数据时代的来临对社会形态的方方面面产生巨大深远影响[1]。各种类型的图书馆是情报传递与交流的重要场所,其功能的发挥与信息技术的进步紧密相
期刊
摘要:很多档案资料涉及个人隐私或是其他机密,需要在保障档案资料安全的基础上,采取一定的加密措施。尤其是在信息时代,电子档案逐渐成为主流,存储于网络空间的电子档案,容易被黑客通过植入病毒等方式窃取,因此档案保密管理的形势更加严峻。档案管理部门必须要与时俱进的借鉴现代技术,切实做好档案保密工作,并在此基础上深度挖掘档案资料的利用价值,为各项工作的开展提供借鉴帮助。  关键词:档案管理;保密工作;利用价
期刊
摘要:文书档案管理水平的高低是衡量医院档案管理水平的一个重要标准,随着卫生改革的不断深化,实行医院分级管理,医院的医疗质量和服务质量不断提高,医院的科技建设不断发展,在这种情况下,加强医院文书档案管理工作显得尤为重要。针对医院档案管理的特殊性,树立文书档案管理工作规范化、标准化,以期提高文书档案利用率,为我院的建设与发展提供强有力的保证。日益丰富的工作实践表明,虽然文书处理工作与档案工作各有不同的
期刊