基于Tesseract文字识别系统的研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:SilentWoolf_1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字识别技术是为了将光学字符转变为计算机能够识别的文本字符,使得计算机能够对识别出的文字信息进行更深层次的操作,让人们的生活和工作更加便捷化和智能化。随着OCR技术的迅速发展,有关文字识别的软件层出不穷,应用于金融行业、汽车行业和快递业务等多个领域,但由于中文字符拥有庞大的字符集,其字型结构也较为复杂,因此中文字符的识别技术更加困难。开源引擎Tesseract不仅支持多种字符的识别,还可根据不同的特征选取不同的特征方法对其进行特征提取,在Tesseract 4.0以上的版本中集成了LSTM技术,不仅加快了Tesseract引擎训练复杂语言的速度,还明显提高了系统的识别率。因此,研究基于Tesseract引擎的文字识别系统,具有一定重要意义。本文通过分析Tesseract引擎原理和神经网络的相关技术,设计了一个功能结构完整且具有一定实用价值的文字识别系统。所设计的文字识别系统主要分为图像处理和字符识别两大部分,图像处理部分是对输入的文字图像进行预处理,去除图像中非字符特征信息的干扰以及倾斜量的影响,该部分主要利用Cx Image图像处理库完成了图像的二值化、去噪和归一化等基本功能,并且实现了一种基于文本行的倾斜检测算法来处理倾斜的文本图像。文字识别部分主要研究了Tesseract引擎的算法和组成原理,依据Tesseract引擎的训练流程完成了自定义字符库的训练,对Tesseract引擎中的神经网络识别部分进行相应的优化,加入注意力机制以增强网络对长序列字符图像的学习能力,并对优化前和优化后的系统分别进行了测试,通过分析测试结果可知加入注意力机制后的系统能够明显提升系统的识别效率。最后利用MFC应用程序框架将图像处理模块和Tesseract识别模块进行了封装,设计了文字识别系统的可视化界面,实现了文字识别的整个操作流程,并对可视化界面中各模块进行了严格的功能测试,测试结果表明基于Tesseract的文字识别系统能够满足本文的需求,且具有良好的稳定性和实用性。
其他文献
如今现代电力系统正在向智能化方向发展,大量的智能设备,如智能仪表和传感器,促进了电力系统在发电、变电、输电和配电模式方面的转变,使得智能电网成为一个典型的网络物理系统,即将物理电力传输系统和计算机网络相结合。在智能电网中,监督控制和数据采集系统(SCADA)实时收集外场设备通过网络发送来的数据,进行分析后向控制中心汇报收集到的信息,控制中心根据这些信息对电网的发电配电进行调整。在享受智能电网带来便
学位
城市垃圾焚烧发电是生物质能源再利用的重要方法之一。但是,其中可回收垃圾的焚烧会带来资源浪费和环境破坏。当前,垃圾处理工厂主要依赖人工分拣的方式从城市垃圾中筛选出可回收垃圾。这种方式工作效率低,成本代价大,不利于人员身心健康。本文针对生物质焚烧发电面临的可回收垃圾分拣难题展开研究。利用目标检测技术,为焚烧发电前的垃圾分拣赋能,以提升工作效率。本文主要工作概述如下:(1)构建了多维度可回收垃圾检测数据
学位
移动通信技术在给人们带来便利的同时,也产生了海量的数据流量,给传输链路带来了极大的压力。为了缓解这一压力,缓存技术被提出并得到了广泛的应用。基于高密度蜂窝网络与设备到设备(Device-to-Device,D2D)通信技术,通过预先将数据缓存到边缘基站或用户中,可以节省核心链路的负担,降低文件的传输时延。传统的流行度缓存策略可以提高用户自身的缓存命中率,但不一定适应所有的场景,因此为了满足不同场景
学位
随着科学技术的深入发展,无线通信网络越来越朝着智能化、多元化的方向发展,第五代移动通信技术5G(5th generation,5G)已经成为当今全球性的研究热点。当前已经进入大数据和人工智能的时代,随着各种智能终端越来越普及,数据流量也出现爆炸式的增长,使得频谱资源更加紧缺。在众多提高频谱利用率的技术中,非正交多址接入技术(Non-orthogonal Multiple Access,NOMA)具
学位
随着第五代移动通信系统(The 5th Generation Mobile Communication System,5G)的大规模部署和商用,国内外研究人员开始了未来第六代移动通信系统(The 6th Generation Mobile Communication System,6G)的预研。预计6G能提供全球覆盖、更高的传输速率、更低的时延和能耗。多输入多输出(Multiple-Input M
学位
随着第五代无线通信系统(The 5th Generation Wireless Communication System,5G)的逐步商用,第六代无线通信系统(The 6th Generation Wireless Communication System,6G)的研究与开发引起了学术界和工业界的广泛关注。6G预计将提供更广的覆盖范围、更高的频谱和能源效率、以及更好的保密性能。可重构智能反射面(R
学位
计算机视觉的一个重要研究方向就是人脸表情识别,人的面部表情是其情绪的重要外在表现,甚至可以说是最重要的外在表现,人与人之间的情感交流很多时候都是通过我们的面部表情来完成的。因此,通过研究计算机对于人脸表情的识别,可以有效的帮助机器理解人的情感,促进人机交互的发展。不过由于一部分人脸表情的界定比较模糊,加上人脸的姿态以及人面部周围的环境的影响会导致机器对于人脸表情的判断的鲁棒性大大降低。本文通过实验
学位
随着无线通信技术的快速发展,5G网络大规模部署,开启了万物互联的新时代。物联网(Internet of Things,Io T)节点如传感器等低成本低功耗设备的数量呈现指数式增长,Io T节点大多以无线设备的形式存在于无线网络中,而无线设备的持续运行依赖于内置的电池供能。但电池容量是有限的,无法在不充电、不更换的情况下长时间为无线设备供能。海量的无线设备带来了巨大的人力运维成本,如何源源不断的为无
学位
随着智慧城市中智慧安防建设的持续推进,一个二线以上城市智慧安防拥有的监控摄像头数量通常会接近或超过百万,智慧监控要求已从看得见、看得清向看得懂进行转变。针对如此巨大规模的摄像头,仅依靠人工浏览对视频监控系统中每个摄像头的质量进行检测评估已变得不太现实,开展城市级规模摄像头的科学视频质量管理已经成为智慧安防的研究热点之一。本文针对城市级视频监控系统中百万及以上摄像头的视频图像的质量评估系统、方法及设
学位
随着人工智能、大数据、物联网等技术的发展,越来越多的数据通过传统传感设备或智能移动设备产生和收集,为了提高数据的传输效率和可用性,原始数据往往需要借助边缘计算进行初步的分析和处理,因此边缘计算网络中将存在大量的可用数据,如果这些数据能够直接在边缘网络中共享,将极大地提高数据的利用率以及加快城市的现代化进程。因此如何在异构边缘节点之间安全地进行数据共享也是当前的一个研究热点。针对边缘计算中数据共享的
学位