基于深度学习的字符识别系统的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:wq123sd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展,图像作为信息技术中的重要传播载体,在信息的传播中占据着非常重要的地位,在大数据时代,如何高效地处理海量图像信息成为研究的热点问题[1]。随着人工智能的热潮的涌起,利用高度智能化的机器来替代各行各业的人工工作已经成为一种趋势。光学字符识别(OCR,optical character recognition)技术是计算机视觉中重要的组成部分,它模拟人类的视觉智能地对图像中的信息进行识别和判断。OCR技术旨在从图片中检测和识别文字信息,即对文本资料进行扫描,再对图像文件进行分析处理,获取文字及版面信息的过程。它主要应用于文档识别及证件识别,通过自动化处理,减少人工成本,提高工作效率,降低错误率。本文借助深度卷积神经网络实现一个适用于票据证件的字符识别系统。票据证件包括身份证,营业执照,零售许可证,增值税发票,交易确认单等。输入图像由手机或者相机等摄像设备拍摄而得。本文所设计的系统结合了数字图像处理,深度学习以及自然语言处理三大方面的技术,针对具体的应用场景,完成了中文OCR识别过程。本文的主要工作如下,
  1. 针对手机拍摄的证件票据的图像质量参差不齐,图像中容易包含冗余的背景信息的问题,本文提出了一种基于目标底色的图像感兴趣区域(ROI)提取的算法对图像进行预处理,定位图像中证件票据所在的具体位置,去除图像中背景信息的干扰,提升整个字符识别系统的识别效果。该算法依据图像中所包含的证件票据的底色的不同,分为绿色,蓝色,红色三种底色,利用图像的边缘检测和形态学处理,获取目标(证件票据)在整幅图像中的位置坐标。实验证明,基于目标底色的图像感兴趣区域(ROI)提取算法的预处理过程能够很好地去除干扰信息,提升OCR识别效果。
  2. 对现阶段的字符识别算法进行调研分析,现阶段的主流字符识别算法框架是“特征提取网络(CNN)+循环卷积网络(RNN)+CTC(Connectionist temporal classification)算法”。本文对以GoogleNet,ResNet以及DenseNet为特征提取网络的主流字符识别算法进行了实验,并对算法效果进行了对比分析。针对主流字符识别算法对硬件条件要求过高,占用内存过大,计算速度无法满足实时性要求的问题,提出了两种轻量级字符识别模型。一种是改进的 DenseNet 轻量级字符识别模型,一种是基于深度可分离卷积的轻量级字符识别模型,并将这两种轻量级网络与现有的主流框架下的字符识别网络进行了对比分析。实验可得,本文所提出的这两种轻量级字符识别算法与传统的字符识别算法相比,模型更小,运算速度更快。特别地,基于深度可分离卷积的字符识别网络得益于它卷积方式的不同,算法性能更为优异。
  3. 由于字符识别过程利用卷积网络进行识别,无法达到百分之百的准确率,针对字 符识别模型的识别结果存在的错误识别问题,本文提出了基于自然语言处理的中文形近字纠错算法用于字符识别网络后端,进一步提升字符识别系统的检测精度。字符识别网络是依据文字的形态特征进行判断输出,识别错误的字符与正确的字符大多是形态特征相似,因此本文所提出的纠错算法主要是针对中文形近字之间的错误。本文提出了两种对中文形近字的纠错算法,一种是基于隐马尔科夫模型(HMM)的纠错算法,它是检测到语句错误之后,使用字库对所检测到的错误进行替换,完成纠错,纠错字库由前端的字符识别模型经过一系列处理获得,使得算法更具针对性。另一种是基于encoder-decoder机制的纠错模型,依据前后文所提供的语义信息进行纠错,同时还考虑到了实际应用场景中专有名词在纠错时的不良影响。通过实验比较,基于HMM的纠错算法纠错速度更快,基于encoder-decoder机制的纠错算法在长语句纠错场景下表现优异,二者都可以很好地服务于证件票据的识别纠错。
  4. 将上述本文所提出的算法融合,设计出一套针对证件票据的字符识别系统,并利用pyqt5工具完成系统与用户交互化界面的设计工作。本系统实现了对手机、相机等摄像设备所拍照得到的证件票据图像进行字符识别,转化为文字信息的过程,主要分为三个部分,包括图像目标区域的提取,字符识别,识别结果纠错。用户可以在交互界面中根据自己的需求建立自定义词典,选择所要识别证件票据的底色。识别完成后,用户可以得到字符识别网络的识别结果以及纠错之后的最终输出结果。经测试,在本文所设定的应用场景下,识别的准确率可达到98.37%。本文所设计的字符识别系统能够很好地达到对证件票据进行字符识别的准确度要求,同时,由于轻量级网络的引入,该系统在保证识别准确率的情况下还能够满足识别实时性的要求。
其他文献
毫米波大规模多输入多输出(Multiple-input Multiple-output, MIMO)通信是未来无线通信的关键技术之一。大规模 MIMO 系统利用波束成形技术不仅可以弥补毫米波信号传输的路径损耗又可以充分挖掘空间自由度。本文针对毫米波大规模 MIMO 中的波束训练和波束跟踪开展研究工作,具体如下。  研究了基于码本的波束训练技术,提出了一种利用辅助计算设计的自适应码本并基于该码本提出
随着大数据时代与互联网时代的发展,多媒体数据在人们生活中扮演着重要的角色,极大地便利人们的生活。然而在数据的传输与处理的过程中,信息安全问题显得尤为重要。尤其是随着云计算技术的普及与应用,云端存储的海量数据的安全保护问题更为严峻。如何保障信息传递过程的安全性、信息内容的完整性,成为学者们广泛研究的方向。图像加密域可逆信息隐藏技术结合了图像加密技术与可逆信息隐藏技术,在图像传递过程中对图像内容进行加
学位
近些年随着汽车的普及,道路交通安全日益成为人们普遍关注的焦点问题。科学技术的发展带动了汽车核心技术的革新,其中提供辅助驾驶功能的毫米波车载防撞雷达因其体积小、功耗低、精度高、抗干扰能力强等优势,成为目前车载传感器的主流方案。本文将以毫米波车载防撞雷达为研究对象,对现阶段毫米波雷达信号处理中的关键技术展开研究,并针对目标检测与参数估计中存在的问题提出具体有效的改进算法,最终形成一套完整的、可行的毫米
学位
随着深度卷积神经网络的兴起,自然场景中的文本检测得到了广泛关注。场景文本检测具有很大的应用价值,比如广告过滤,场景理解,文档分析以及机器人导航等等。但是,因为尺寸、长宽比和方向的巨大变化以及图像扭曲、极端的照明情况和遮挡问题,场景文本检测仍然面临着巨大的挑战。本文的主要工作和创新如下:  1.本文研究了基于语义分割的文本检测算法EAST,并提出了一种含有空洞卷积的场景文本检测算法AC-EAST。A
学位
本文针对毫米波大规模多输入输出(Multiple-Input and Multiple-Output,MIMO)系统,分别研究了基于经典方法与基于深度学习方法的信道估计。其中经典方法包括过采样与基于旋转不变技术的信号参数估计(Estimating Signal Parameters via the Rotational Invariance Techniques,ESPRIT)。  首先对于使用过
近年来,随着医疗水平的快速发展,先进的医疗设备开始广泛应用,众多医疗数据得以有效保存。临床医学作为医学研究与临床诊断的桥梁,数据具有多样性、高维性、冗余性等特点,合理的医疗数据分析手段对了解发病原因、辅助医生诊断、疾病预防等具有重要意义。  心身疾病作为一门新兴的临床科学,确诊过程不仅需要精密仪器的检测,还需要医生凭借丰富的临床经验问诊,数据收集繁杂,具有临床实践的特殊性。抑郁症是一种常见的心理疾
学位
细粒度图像识别是计算机视觉领域中一项颇具挑战性的研究课题,目的是区分同一大类下各个不同的子类。与跨物种的粗粒度图像识别任务相比,细粒度图像数据集内不同种类的目标外观相似程度较高,而同一种类的目标由于姿势、视角和光照等因素导致视觉差异显著,因此使用普通的深度学习图像识别技术难以精准地判断细粒度目标类别。强监督细粒度识别算法借助目标边界框或部位标注点等额外的监督信息构建检测模型,从而对图像判别性区域进
学位
伴随着新一轮的技术革命和产业革命,高级辅助驾驶系统(Advanced driver assistance system,ADAS)作为一种极为重要的主动安全技术,极大提高了人们出行的安全指数,保障了生命和财产安全,成为近年来汽车产业的研究热点与产业趋势。毫米波雷达凭借其体积小、成本低以及不易受恶劣环境因素影响等特性,被视为ADAS系统感知层的核心传感器之一,并成为车载雷达应用的主流。车载毫米波雷达
数字图像相关 (DIC, Digital Image Correlation) 测量方法可用于测量物体表面位移,因其设备简单,非接触测量,使用环境要求低等优势,已经成为光测力学学术界和工业界最为活跃的测量方法。然而,算法与计算参数的选取等诸多因素影响着数字图像相关方法的亚像素位移测量精度,且当前亚像素位移测量精度相对较低,无法满足目前工程上对精度的需求,因此,本文主要围绕如何提高数字散斑相关方法的
学位
随着无线通信技术的飞速发展和无线通信业务的稳步扩展,电磁环境越来越复杂多变,无处不在的人为及自然干扰成为宽带通信高质量、高速率及高效率传输的最大障碍,智能化抗干扰系统的研究尤为迫切。作为智能抗干扰系统核心的信道检测模块,其性能直接决定了后续参数决策的准确性以及系统抗干扰性能的优劣。传统的信道估计方法一般采用均匀导频和线性插值,导致频带利用率低及恢复精确度不高等问题。而基于压缩感知的估计方法则通过稀
学位