论文部分内容阅读
最近几十年以来,中国的迅速发展,各种基础设施的建设、通信技术的迅速推广得到了革命性的飞跃。网络和移动互联网的迅速崛起,各种技术带来的方便已经深入我们生活的每一个角落,人类社会生活的脚步已经进入了快速发展的信息时代。在信息时代,以人工智能为主题的技术在世界上掀起了一阵经久不息的热潮,随着“互联网+”国家战略的提出,给那些能够提供各种解决方案的技术带来了巨大的机遇。而文字识别技术,作为人工智能应用技术的交叉点之一,与无人驾驶汽车技术、自动化技术、机器人、相似图像搜索、虚拟/人工智能增强现实等应用领域有着很强的相关性。如何让计算机理解即使是真实场景的文字信息上的图片,一向是文字识别领域识别流程中的重要一步。字符识别技术在历史的长河中证明了它是一种高度适用的技术,用以支持信息社会中必须处理的大量文本信息的信息输入。文字识别是人类最重要的互动方式之一,对人们的生活具有重要意义。在文字识别领域中,随着中国的飞速发展,在国际的影响力逐渐上升,汉字识别已成为领域中重要的一环。对于诸如中文书籍之类的纸质文件的文本,文本图像是由扫描仪或照相机生成的,并且图像字符使用数字图像处理技术和机器学习算法进行识别。这项研究在现实生活中具有很大的实用价值。例如,它可用于分类,车牌,广告牌与ID卡信息的识别,以及用于辅助盲人阅读的场景之中。这样可以实现减少人工操作以带来的便利,实现自动识别而节省时间和人工成本,方便人们的生活。下面具体说明字符识别技术可以被应用的三个领域。1.无人驾驶领域无人驾驶技术正在中国迅速地发展,以百度为代表的阿波罗无人驾驶系统是现代工业技术与人工智能技术融合的综合体现。字符识别是无人驾驶系统中最重要的模块之一,通过车载摄像头获取车辆周围的街道信息,这些标志信息为车辆控制提供了丰富的信息,如:车辆的方位、车速限制等。同时还对汽车车牌进行识别,进行智能停车管理。2.盲人辅助阅读领域人们获取信息的方式,主要通过视觉和听觉两个方面,对于视障人士来说,无法通过视觉获得想要的信息,或者学习知识。和字符识别算法可以通过电子设备,它可以识别出真实的文本图像通过语音的形式反馈到视力受损的用户,支持视觉信息,朋友可以像一个正常人盲人阅读,有利于丰富和便捷的生活。3.金融领域银行等金融部门一天可以生产出大量的金融工具,而且随着信息的飞速发展,信息管理需要各种纸质信息,因此有必要对纸质中的文字信息进行识别和存储管理。而短信金融工具非常丰富而繁杂,如果繁重的手工录入会花费很多时间。并且通过字符识别算法,可以对文中的文本信息进行自动识别,节省了大量的人力和时间成本。从不同民族字符的识别角度来看,由于英文大小写字体只有26种,识别难度相对较小,目前的相关处理算法也比较完善。但由于汉语笔画的多样性等特点,识别难度会线性增加。对于本文的数据集,其中有许多汉字,文字识别的重点和难点非识别汉字莫属,因为汉字具有的三大特点使汉字识别难度远远高于英文字体识别难度:1.汉字数量庞大中国有4000多个常用汉字。仅在国家标准中就有6763个汉字,其中3755个汉字在众多应用环境中有99%的概率被使用。这项研究的主要目的之一也是对汉字识别的研究,识别汉字的难度很高,这不得不归咎于汉字的数量庞大。2.汉字字体众多汉字有多种类型,例如黑体,宋体和楷体等。同一字符的不同字体所表现出特定笔画形状,粗细和长度不完全相同,甚至可能差距甚远。因此,不同字体的网点图像是不一样的,所以,它们表现出不同的特征。在抉择适宜不同字体类型的特征时若选择不当,将可能导致诸如识别精度不佳的问题。3.汉字结构复杂几个笔画方可构成一个汉字,且其结构特点不明显。在两个级别的汉字中,笔画是平均数字11。就笔画的数量而言。97%的汉字笔画超过7笔画。笔画数目的变化反映了汉字结构的复杂性,不同词根的排列和组合也形成了许多不同的汉字结构。汉字识别的主要困难之一仍是因汉字结构复杂所导致。本文在认真研究了国内外的研究现状和应用需求后,分析了目前可行的OCR技术,设计了基于深度学习的印刷喷码字体识别方法,研究设计了基于深度学习的文字识别算法。本文主要通过三种方法来尝试识别中英文印刷喷码的识别。其中,论文的主要算法为基于CTPN的CRNN方法。两种对比算法分别为传统的基于模板匹配的方法和基于CNN的单词整词识别方法。1.基于CTPN与CRNN相结合的研究CTPN是由ECCV在2016年提出的一种文本检测算法,它结合了 CNN和LSTM深度网络,可以有效地检测复杂场景中文本的水平分布,在当前具有良好的性能,是最优秀的文本检测算法之一。CTPN的使用是为了解决长期训练中梯度消失和梯度爆炸的问题。而LSTM在RNNs中相对独特,也就是说,LSTM在长序列的表现上胜过传统的RNNs。CRNN由CNN、RNN和CTC组成。BLSTM之后,使用CTC来计算损失。CTC是一种损耗计算方法,可以在不对齐训练样本的情况下用CTC替换Softmax来计算损耗,其特点一在于引入空格字符以解决在识别区域中部分区域缺失内容而导致无效识别的问题,二在于通过使用递推算法来快速计算梯度。本文通过参考VGG实验室提供的开源代码进行研究,并测试自己的数据集,识别准确率可以大致与参考文献中的识别准确率相同。2.基于模板匹配的方法传统印刷汉字识别中使用的关键技术包括文本图像扫描,文本布局分析,图像预处理,文字的分割与分类,文本特征提取,文本结构特征识别和识别结果处理等,这些技术在文字切割,特征提取和特征识别等领域中发挥着重要作用。本文中基于模板匹配的相关算法经由MATLAB程序所实现,利用该算法提取样本,英语识别率较高,但由于汉字模板比较复杂,准确率不高。3.基于CNN的单词整词识别的方法在文本区域提议检测中,该方法将区域提议与滑动窗口检测相结合。然后,使用随机森林分类器对非语言建议进行过滤。然后用一个边界框来调整过滤剩下的提出检测窗口,包围他们尽可能多的文本区域,最后将读取在整个区域网络(网络模型为CNN),一次性直接对整个单词进行识别,而不是原始的区域划分为一个个字母来识别。这篇论文的数据集由导师提供,无需自行生成,衷心感谢导师对我的指导与教诲。…