【摘 要】
:
了解OCR识别原理 OCR是指通過特定的电子设备(例如扫描仪或数码相机)对图片进行处理,然后用字符识别方法将形状翻译成计算机文字的过程。如现在很多学生在使用的拍照解题APP,可以识别出照片上的题目,幕后功臣就是OCR(图1)。我们以上述解题APP为例,APP在接收到图片后会进行预处理并将图片矫正,接着对图片进行水平切割(用于识别水平方向的行)和垂直切割(用于识别垂直方向的列),最后对文字进行特征
论文部分内容阅读
了解OCR识别原理
OCR是指通過特定的电子设备(例如扫描仪或数码相机)对图片进行处理,然后用字符识别方法将形状翻译成计算机文字的过程。如现在很多学生在使用的拍照解题APP,可以识别出照片上的题目,幕后功臣就是OCR(图1)。我们以上述解题APP为例,APP在接收到图片后会进行预处理并将图片矫正,接着对图片进行水平切割(用于识别水平方向的行)和垂直切割(用于识别垂直方向的列),最后对文字进行特征向量的提取并成功识别(图2)。
①解题APP题目识别就是OCR
②OCR识别文字流程图解
弯曲文字识别突破——TextTubes背后的技术
常规OCR识别通过切割获取行和列,也就是要OCR从图片中识别出每个文字,文字的分割结构应该是按照“田字格”的模式排列(图3)。
③常规OCR的水平、垂直切割示例
不过生活中我们经常遇到很多弯曲文字,比如广告牌上的宣传文字、一些论坛显示的图片验证码,对于这些图片如果按照传统的方式切割,它会将文字切割为不完整的多个部分,比如下图中的“N”和“8”,N字母被切割为上下两部分,这样的结果自然是导致识别失败。所以常规OCR对于弯曲文字的识别是有难度的,当然这也是为什么很多论坛使用这种弯曲验证文字来避免机器人自动登录的原因(图4)。
④传统的水平、垂直切割导致文字分裂
⑤TextTubes技术选取弯曲文字
为了解决弯曲文字识别难题,亚马逊研究人员引入了TextTubes技术,它引入了一种新的算法,该算法首先会对目标图像进行建模,建立一个曲线函数,然后再分析出半径以及中间轴,继而生成一个文本选取分区。简单地说就是把弯曲的部分看成是一个近似圆的某个扇区,然后将文字覆盖的区域作为扇形的某个部分,最后对其进行分割选取。上述例子,它把图片字符所在区域看成一个扇形,文字的行(对应水平分割)是通过上下两段弧形进行选取,每个字符(对应垂直分割)则借助半径线条实现,这样弯曲文字可以被分割为一个个独立又完整的字符(图5)。
当然在实际识别中,弯曲的形状多种多样,文字排列方式也不尽相同。为了能够提高TextTubes的识别效率,亚马逊引入了大数据机器训练方法,它准备了两个训练数据集CTW-1500和Total-Text,前者包含1500张图片和超过10000个的文本字符,每张图片里至少包含一种弯曲文本形式。后者则有1255个训练图像、300个测试图像,同样的,每张训练图片中也至少包含一种弯曲文本形式。这样通过一定时间的训练,机器就可以对生活中常见的弯曲形式进行识别。接着在这个基础上可以生成一套新的算法,部署这个算法的OCR软件在接收到包含弯曲文字的图片时,它会自动根据算法对常见图片上的弯曲文字进行准确的分割和识别,从而解决传统OCR无法识别弯曲文字的难题(图6)。
⑥TextTubes技术图解
现在不仅借助机器学习,很多OCR训练还引入了Al的卷积神经网络(CNN),这样通过机器深度学习+卷积神经网络,可以让OCR实现更加智能的提取,比如在更复杂的场景(不仅仅是在弯曲图片上)识别出各种字符。场景文本识别(文字检测+文字识别)是未来OCR技术的发展方向,如基于Google Lens底层的AI光学字元辨识(OCR)技术现在已经能辨识超过10亿种物件,并且可以在各种复杂场景中识别出诸如相片中的店铺招牌、地标、景点、著名建筑、Wi-Fi等等物件(图7)。
⑦基于图像识别和OCR技术的人工智能应用——Google Lens
新型OCR识别技术给我们带来便利
显然如果弯曲的文字可以被自动识别,它可以给我们的生活带来很多的便利,因为在生活中还有许多弯曲字符,比如应用到安防识别中,那些弯曲车标标识就可以快速识别,迅速确定用户驾驶的汽车品牌(图8)。
当然这些技术还可以应用在自动驾驶汽车识别标志牌、智能导航、街头数据采集等等领域。比如大家常用的美团,它对于街头店面的自动采集系统就使用类似TextTubes的技术。虽然很多店铺门头图、店名采用不规则分布文字,这些文字行本身多角度且字符的笔画宽度变化大,但是美团借助“OCR+全卷积网络定位”实现这些文字的定位和精准识别。相信随着OCR技术的发展,以后基于OCR场景识别发展起来的各种识别技术必然会给我们的生活带来更多的便利。
⑧车标弯曲字符
其他文献
回收站是Windows 10的一个重要组件,然而,我们在使用过程中,可能会遇到一些问题。例如,不论回收站里有没有文件,都显示同一个图标,让人无法判别回收站的空和满的真实情况;没有了像Windows 7那样的文件删除时进入回收站的确认提示;还有的时候无论如何设置,文件均无法进入回收站,按下删除键时文件会直接消失。遇到这些问题,该如何解决呢? 1 无论空与满 显示图标都一样的 在正常情况下,桌面上的
漏洞名称:远程控制漏洞 漏洞危害: 不久之前本栏目刚刚介绍了谷歌浏览器的高危漏洞,一波刚平一波又起,最近谷歌浏览器再一次被发现存在高危漏洞。这次漏洞存在于SQLite模块,该模块主要用于存储浏览器中的书签、历史记录以及配置信息等内容。黑客通过构造相应的恶意代码,并将它们植入到网页或者电子邮件中来骗取用户进行访问。一旦用户访问了存在恶意代码的页面,浏览器中的漏洞就会被激活,从而在系统后台下载黑客
Q:Windows 10提供了几项常用的能源管理方案,除了常见的“均衡”、“节能”和“高性能”选项以外,还有一个名为“卓越性能”的方案。如何才能启用这个电源管理方案? A:在系统的开始图标上点击鼠标右键,在弹出的菜单中选择“Windows PowerShell(管理员)”这个命令,在弹出的对话框中输入“powercfg- d u p l i c a t e s c h e m e e9a42b0
1 拒绝生成文件缩略图 如果不希望系统自动生成文件缩略图,可采用如下两种方法。 首先可在资源管理器中实现。在文件资源管理器中依次按下快捷键Alt+V,Y,O,也可以点击“查看→选项”或按下Win+S后直接搜索“文件夹选项”,这样会打开“文件夹选项”设置窗口(图1)。 点击“查看”选项卡,查找“高级设置”列表下“文件和文件夹”分组中的“始终显示图标,从不显示缩略图”选项,选中该项并点击“应用”
对于这样的升级,效率、功能方面并没有落伍的旧平台,也就是第九代酷睿显然并不会快速过时,对急需升级或装机的用户来说仍然是很好的选择。而进入新一年后,部分第九代酷睿处理器已经开始调低价格,预计其他型号也会逐步跟进调价,这会使得第九代酷睿平台的性价比进一步提升。很明显,第九代酷睿平台的时代还远没有结束呢,我们不妨先收回望向未来的目光,看看眼下的第九代酷睿平台有什么值得考虑的选择吧。促销不断第九代酷睿的入
1. 右键操作 一键实现文件夹变色 最简单的文件夹着色操作,当属直接在文件夹上单击右键并选择颜色。这一设想不难实现,只需安装软件Folder Colorizer即可。 安装Folder Colorizer软件之后,在需要着色的文件夹上单击右键,然后选择Colorize!命令下的某种颜色,即可将文件夹变为以这种颜色显示。如果要将文件夹颜色还原为原来的系统金黄色,选择Restore origina
1. 全面广泛的一键清理优化 系统运行不畅本来就是一件麻烦事了,如果在清理优化方面再需要投入更多的精力,那么就是麻烦上加麻烦。因此,遇到需要优化清理的场合,人们往往比较倾向于使用更为方便的一键清理优化方案,这样清理最省力省心。HDCleaner这款免费软件,便可以实现全能的一键系统清理和优化。 运行HDCleaner软件后,首先在“仪表板”选项卡中,我们可以一眼看到系统的健康状况和安全状况。如
首次运行软件时要选择首选方案。选择高级方案(Advanced),软件菜单中将会多出搜索项目(Search items)和工具菜單(Tools)两个菜单项(图1)。选基本方案(Base)则不出现这两项。 软件运行后,呼出软件本身就可以使用鼠标手势。只需按住鼠标右键并向下滑动,就可以看到S y M e n u的界面了(图2)。若未能用该手势呼出软件界面,请在软件Options(选项)窗口的Gestu
首先,在下载的Bin软件中,我们看到只有一个EXE主文件,将该文件拷贝到要管理的移动介质中。运行iBin并按照说明进行操作,软件将自动在移动设备的根目录中创建容器文件夹和必要的文件系统。运行软件后,iBin将处于后台运行状态,系统托盘上将可见移动回收站图标(图1)。 之后,如果选中移动介质中的文件被按下Del键,或通过右键菜单选择“删除”命令,iBin将会检测到该删除动作,并提供相应的文件处理操
1 无法退出安全模式 如果进入安全模式之后,无法从这种模式退出,进入到正常运行Windows的模式,可尝试使用系统MSCONFIG命令,或配合使用BCDEDIT命令加以解决。 首先,在安全模式环境下按下Win+R组合键启动“运行”对话框,输入MSCONFIG命令并回车运行(图1)。进入到“系统配置”窗口之后,首先保证“常规”选项卡下的“正常启动”选项处于被选中状态(图2);接下来,切换到“引导