论文部分内容阅读
文本识别是指文本位置预测和文本内容解析,本文研究的手写文本包括手写数字和手写中文文字。传统的手写数字识别方法有支持向量机,最近邻和随机森林等,但手写数字纹理特征少,有效信息提取难度高,以上分类器的准确率并不高。传统的手写文本识别大多数是基于单个字符的,针对文本行的识别方法并不多见,且实现方式局限于图像预处理、字符分割、特征提取和分类器设计等环节的拼凑。总之,传统的文本识别方法和模型普遍使用浅层特征,未能从大规模数据中抽象学习共性特征,效果并不理想。针对以上问题,本文分析了手写文本识别的难点,提出了有效的解决方法并通过实验得以验证。主要研究内容包括:(1)提出基于改进VGG16(Visual Geometry Group)卷积网络的手写数字识别方法,将学习率退火算法融入SGD(Stochastic gradient descent)优化器中,优化了网络学习过程,在增强的MNIST(Mixed National Institute of Standards and Technology database)数据集上识别准确率提高到99.98%。(2)利用RRPN网络(Rotation Region Proposal Networks)解决了倾斜文本行候选区域提取问题,搭建RRCNN网络(rotation-region-based convolutional neural networks)实现倾斜文本行检测定位和回归,最后融入BLSTM(Bi-directional Long Short-Term Memory)网络实现文本行起始和结束位置的精确定位。(3)针对手写汉字书写风格多样和笔画粘连等问题,提出了无分割端到端文本行识别新方法。利用DCN网络(Deep Convolutional Networks)提取文本行特征序列,利用Multi-BLSTM(Multilayered BLSTM)网络学习文本序列上下文空间信息,结合Ngram语言模型(N grammar model)约束,经过联结主义时间分类CTC(Connectionist Temporal Classification)层进行特征序列转录得到文本结果,避免了图像预处理和字符分割的困难。在手写文本数据集HWDB2(Handwritten DataBase 2.0~2.2)上获得92%的准确率,证明了模型的优越性。最后给出本文研究内容在答题卡识别领域中的应用案例,为答题卡自动识别提出了思路和解决方案。