论文部分内容阅读
摘要:中文手写文字识别在新的手写数据库的基础上,已经有了比较大的发展,研究的方向也趋近于更加贴近真实的不加限制的手写文本识别,但手写汉字识别的难点依然没有被攻破,汉字数量大,结构复杂,一些汉字的形态相似以及个人书写风格多种多样等因素造成了手写汉字的识别率不尽如人意。本文将研究重点放在手写汉字识别的特征提取和分类器训练过程,通过基于卷积神经网络(Convolutional neural network,CNN)技术的算法,训练出具有较高识别度的手写汉字识别系统。
关键词:卷积神经网络;手写汉字识别;深度学习
一、手写汉字识别现状
传统的手写汉字识别方法基于光学字符识别(Optical Character Recognition,OCR)技术,其识别过程主要分为四个部分:汉字图像的预处理、特征提取、分类器训练、后处理。
1.手写汉字图像的预处理过程;
对汉字图像的预处理主要包含两大模块,即汉字图像的处理和汉字字形的校正。手写汉字的原图像通常会有分辨率不高、噪声强等问题,通常采用灰度增强、二值化、平滑去噪、归一化等方法使汉字图像更容易被分割和识别。
2.手写汉字图像的特征提取过程;
对汉字图像的特征提取包括结构特征提取和数字特征提取,汉字图像的结构特征是指手写汉字的笔画和形态之间的关系,汉字图像的结构特征虽然能够比较好的表示汉字的特征,对不同汉字的形态变化也有一定的适应能力,但一般提取的难度较大。而数字特征的提取通常具有较好的稳定性且易于提取。对数字特征的提取,一般采用Gabor法、梯度法等等。
3.手寫汉字图像的分类器训练过程;
在经过了特征提取后,将提取出的字符特征通过支持向量机算法(Support Vector Machine,SVM)进行训练,SVM算法一般针对二值进行分类,将其应用于多类问题,通常可以通过将多个二值子分类器进行组合来实现多分类器的构造。
4.手写汉字图像的后处理过程;
即便再精确的算法也难免有一定的错误率,在单字识别后,通常采用NLP(Natural Language Process)技术,通过词法切分和语法匹配来提高识别的正确率。
5.传统OCR技术的优缺点;
分析以上基于OCR技术过程的手写汉字识别,其优点和缺点都很明显,优点即算法的实现很简单,训练所需的时间较短,可以迅速作出预测。缺点即对输入的文字图像质量和手写字体的要求较高,在特征提取过程中容易造成信息的丢失,使得错误率较高。
二、基于卷积神经网络的手写汉字识别技术
1.卷积神经网络与文字处理简介
卷积神经网络(Convolutional neural network,CNN)是深度学习中极具代表性的网络结构之一,其在模式识别和图像处理方面均取得了很大的成功。在图像处理的过程中,我们往往会将图像看成是一个或多个的二维向量,常见的手写体汉字图像一般可以看成一个28*28*3(宽28像素*高28像素*RGB三通道)的三张二维图像。传统的神经网络采用全连接的方式,即输入层到隐藏层的神经元都是完全连接的。这种方式需要处理的参数量极大,就使得网络训练十分耗时甚至难以训练,而CNN则通过局部连接和权值共享等方法极大的降低了计算量,使得训练所需的参数大幅减少。因此,相比传统的OCR技术,基于CNN技术进行的手写汉字识别的整体结构明显得到简化。
2.在激活函数方面的创新。
我们在传统CNN的LeNet-5模型的基础上,将该系统模型的激活函数sigmoid函数和双曲正切函数(tanh函数)优化为纠正线性单元(Rectified Linear Units,ReLU)作为激活函数。
ReLU函数公式如下:
由以上公式可知,ReLU函数为一个分段函数,即让所有的函数值中的负值等于0,正值不变,这种做法使得神经元的工作具有了单侧抑制性,稀疏后的模型则能够更好的提取相关特征,拟合训练数据,并极大的降低了计算量。
运用了Dropout方法减少训练时间并防止过拟合。
在标准的神经网络中,每个参数都会被调动改变,使得损失函数最终被较少,神经元就可以通过这种方式修正其他单元的错误。但这种计算方式可能会遭成协调变得过于复杂,或者出现只依赖某些神经元的情况,反而导致计算量过大甚至过拟合的情况出现,而Dropout方法则以概率p舍弃神经元并使其它神经元以概率保留,舍弃的神经元的输出都被设置为0。这样就可以让更多的神经元参与到最终的输出当中,阻止神经元的共适应。
对应的公式变化如下:
很多错误是由相似字的原因造成的,这些汉字形状极为相似,有些笔划的区别又非常小,使得卷积神经网络这种对平移和扭曲不敏感的模型难以对其进行区分,限制了识别率的进一步提升。
总结与展望:
本文将卷积神经网络应用于手写文字识别之中,由于卷积神经网络具有良好的特征提取和表达能力,在手写汉字识别方面取得了一定的效果,但该方法仍存在着许多的不足,一方面,识别率依然未能达到预期,很多错误是由相似字的原因造成的,这些汉字形状极为相似,有些笔划的区别又非常小,使得卷积神经网络这种对平移和扭曲不敏感的模型难以对其进行区分,限制了识别率的进一步提升。另一方面,卷积神经网络的卷积层中存在大量的滤波器组,这些滤波器组协同对输入的数据进行特征提取,使得卷积神经网络具有较好的特征提取性能,但也导致了训练难度的增加,在识别过程中产生了大量的冗余过程,如何能够减少卷积神经网络的冗余并保证其稳定的识别能力,将是我们接下来研究的主要方向。
关键词:卷积神经网络;手写汉字识别;深度学习
一、手写汉字识别现状
传统的手写汉字识别方法基于光学字符识别(Optical Character Recognition,OCR)技术,其识别过程主要分为四个部分:汉字图像的预处理、特征提取、分类器训练、后处理。
1.手写汉字图像的预处理过程;
对汉字图像的预处理主要包含两大模块,即汉字图像的处理和汉字字形的校正。手写汉字的原图像通常会有分辨率不高、噪声强等问题,通常采用灰度增强、二值化、平滑去噪、归一化等方法使汉字图像更容易被分割和识别。
2.手写汉字图像的特征提取过程;
对汉字图像的特征提取包括结构特征提取和数字特征提取,汉字图像的结构特征是指手写汉字的笔画和形态之间的关系,汉字图像的结构特征虽然能够比较好的表示汉字的特征,对不同汉字的形态变化也有一定的适应能力,但一般提取的难度较大。而数字特征的提取通常具有较好的稳定性且易于提取。对数字特征的提取,一般采用Gabor法、梯度法等等。
3.手寫汉字图像的分类器训练过程;
在经过了特征提取后,将提取出的字符特征通过支持向量机算法(Support Vector Machine,SVM)进行训练,SVM算法一般针对二值进行分类,将其应用于多类问题,通常可以通过将多个二值子分类器进行组合来实现多分类器的构造。
4.手写汉字图像的后处理过程;
即便再精确的算法也难免有一定的错误率,在单字识别后,通常采用NLP(Natural Language Process)技术,通过词法切分和语法匹配来提高识别的正确率。
5.传统OCR技术的优缺点;
分析以上基于OCR技术过程的手写汉字识别,其优点和缺点都很明显,优点即算法的实现很简单,训练所需的时间较短,可以迅速作出预测。缺点即对输入的文字图像质量和手写字体的要求较高,在特征提取过程中容易造成信息的丢失,使得错误率较高。
二、基于卷积神经网络的手写汉字识别技术
1.卷积神经网络与文字处理简介
卷积神经网络(Convolutional neural network,CNN)是深度学习中极具代表性的网络结构之一,其在模式识别和图像处理方面均取得了很大的成功。在图像处理的过程中,我们往往会将图像看成是一个或多个的二维向量,常见的手写体汉字图像一般可以看成一个28*28*3(宽28像素*高28像素*RGB三通道)的三张二维图像。传统的神经网络采用全连接的方式,即输入层到隐藏层的神经元都是完全连接的。这种方式需要处理的参数量极大,就使得网络训练十分耗时甚至难以训练,而CNN则通过局部连接和权值共享等方法极大的降低了计算量,使得训练所需的参数大幅减少。因此,相比传统的OCR技术,基于CNN技术进行的手写汉字识别的整体结构明显得到简化。
2.在激活函数方面的创新。
我们在传统CNN的LeNet-5模型的基础上,将该系统模型的激活函数sigmoid函数和双曲正切函数(tanh函数)优化为纠正线性单元(Rectified Linear Units,ReLU)作为激活函数。
ReLU函数公式如下:
由以上公式可知,ReLU函数为一个分段函数,即让所有的函数值中的负值等于0,正值不变,这种做法使得神经元的工作具有了单侧抑制性,稀疏后的模型则能够更好的提取相关特征,拟合训练数据,并极大的降低了计算量。
运用了Dropout方法减少训练时间并防止过拟合。
在标准的神经网络中,每个参数都会被调动改变,使得损失函数最终被较少,神经元就可以通过这种方式修正其他单元的错误。但这种计算方式可能会遭成协调变得过于复杂,或者出现只依赖某些神经元的情况,反而导致计算量过大甚至过拟合的情况出现,而Dropout方法则以概率p舍弃神经元并使其它神经元以概率保留,舍弃的神经元的输出都被设置为0。这样就可以让更多的神经元参与到最终的输出当中,阻止神经元的共适应。
对应的公式变化如下:
很多错误是由相似字的原因造成的,这些汉字形状极为相似,有些笔划的区别又非常小,使得卷积神经网络这种对平移和扭曲不敏感的模型难以对其进行区分,限制了识别率的进一步提升。
总结与展望:
本文将卷积神经网络应用于手写文字识别之中,由于卷积神经网络具有良好的特征提取和表达能力,在手写汉字识别方面取得了一定的效果,但该方法仍存在着许多的不足,一方面,识别率依然未能达到预期,很多错误是由相似字的原因造成的,这些汉字形状极为相似,有些笔划的区别又非常小,使得卷积神经网络这种对平移和扭曲不敏感的模型难以对其进行区分,限制了识别率的进一步提升。另一方面,卷积神经网络的卷积层中存在大量的滤波器组,这些滤波器组协同对输入的数据进行特征提取,使得卷积神经网络具有较好的特征提取性能,但也导致了训练难度的增加,在识别过程中产生了大量的冗余过程,如何能够减少卷积神经网络的冗余并保证其稳定的识别能力,将是我们接下来研究的主要方向。