论文部分内容阅读
随着计算机技术的飞速发展,图像作为信息技术中的重要传播载体,在信息的传播中占据着非常重要的地位,在大数据时代,如何高效地处理海量图像信息成为研究的热点问题[1]。随着人工智能的热潮的涌起,利用高度智能化的机器来替代各行各业的人工工作已经成为一种趋势。光学字符识别(OCR,optical character recognition)技术是计算机视觉中重要的组成部分,它模拟人类的视觉智能地对图像中的信息进行识别和判断。OCR技术旨在从图片中检测和识别文字信息,即对文本资料进行扫描,再对图像文件进行分析处理,获取文字及版面信息的过程。它主要应用于文档识别及证件识别,通过自动化处理,减少人工成本,提高工作效率,降低错误率。本文借助深度卷积神经网络实现一个适用于票据证件的字符识别系统。票据证件包括身份证,营业执照,零售许可证,增值税发票,交易确认单等。输入图像由手机或者相机等摄像设备拍摄而得。本文所设计的系统结合了数字图像处理,深度学习以及自然语言处理三大方面的技术,针对具体的应用场景,完成了中文OCR识别过程。本文的主要工作如下,
1. 针对手机拍摄的证件票据的图像质量参差不齐,图像中容易包含冗余的背景信息的问题,本文提出了一种基于目标底色的图像感兴趣区域(ROI)提取的算法对图像进行预处理,定位图像中证件票据所在的具体位置,去除图像中背景信息的干扰,提升整个字符识别系统的识别效果。该算法依据图像中所包含的证件票据的底色的不同,分为绿色,蓝色,红色三种底色,利用图像的边缘检测和形态学处理,获取目标(证件票据)在整幅图像中的位置坐标。实验证明,基于目标底色的图像感兴趣区域(ROI)提取算法的预处理过程能够很好地去除干扰信息,提升OCR识别效果。
2. 对现阶段的字符识别算法进行调研分析,现阶段的主流字符识别算法框架是“特征提取网络(CNN)+循环卷积网络(RNN)+CTC(Connectionist temporal classification)算法”。本文对以GoogleNet,ResNet以及DenseNet为特征提取网络的主流字符识别算法进行了实验,并对算法效果进行了对比分析。针对主流字符识别算法对硬件条件要求过高,占用内存过大,计算速度无法满足实时性要求的问题,提出了两种轻量级字符识别模型。一种是改进的 DenseNet 轻量级字符识别模型,一种是基于深度可分离卷积的轻量级字符识别模型,并将这两种轻量级网络与现有的主流框架下的字符识别网络进行了对比分析。实验可得,本文所提出的这两种轻量级字符识别算法与传统的字符识别算法相比,模型更小,运算速度更快。特别地,基于深度可分离卷积的字符识别网络得益于它卷积方式的不同,算法性能更为优异。
3. 由于字符识别过程利用卷积网络进行识别,无法达到百分之百的准确率,针对字 符识别模型的识别结果存在的错误识别问题,本文提出了基于自然语言处理的中文形近字纠错算法用于字符识别网络后端,进一步提升字符识别系统的检测精度。字符识别网络是依据文字的形态特征进行判断输出,识别错误的字符与正确的字符大多是形态特征相似,因此本文所提出的纠错算法主要是针对中文形近字之间的错误。本文提出了两种对中文形近字的纠错算法,一种是基于隐马尔科夫模型(HMM)的纠错算法,它是检测到语句错误之后,使用字库对所检测到的错误进行替换,完成纠错,纠错字库由前端的字符识别模型经过一系列处理获得,使得算法更具针对性。另一种是基于encoder-decoder机制的纠错模型,依据前后文所提供的语义信息进行纠错,同时还考虑到了实际应用场景中专有名词在纠错时的不良影响。通过实验比较,基于HMM的纠错算法纠错速度更快,基于encoder-decoder机制的纠错算法在长语句纠错场景下表现优异,二者都可以很好地服务于证件票据的识别纠错。
4. 将上述本文所提出的算法融合,设计出一套针对证件票据的字符识别系统,并利用pyqt5工具完成系统与用户交互化界面的设计工作。本系统实现了对手机、相机等摄像设备所拍照得到的证件票据图像进行字符识别,转化为文字信息的过程,主要分为三个部分,包括图像目标区域的提取,字符识别,识别结果纠错。用户可以在交互界面中根据自己的需求建立自定义词典,选择所要识别证件票据的底色。识别完成后,用户可以得到字符识别网络的识别结果以及纠错之后的最终输出结果。经测试,在本文所设定的应用场景下,识别的准确率可达到98.37%。本文所设计的字符识别系统能够很好地达到对证件票据进行字符识别的准确度要求,同时,由于轻量级网络的引入,该系统在保证识别准确率的情况下还能够满足识别实时性的要求。
1. 针对手机拍摄的证件票据的图像质量参差不齐,图像中容易包含冗余的背景信息的问题,本文提出了一种基于目标底色的图像感兴趣区域(ROI)提取的算法对图像进行预处理,定位图像中证件票据所在的具体位置,去除图像中背景信息的干扰,提升整个字符识别系统的识别效果。该算法依据图像中所包含的证件票据的底色的不同,分为绿色,蓝色,红色三种底色,利用图像的边缘检测和形态学处理,获取目标(证件票据)在整幅图像中的位置坐标。实验证明,基于目标底色的图像感兴趣区域(ROI)提取算法的预处理过程能够很好地去除干扰信息,提升OCR识别效果。
2. 对现阶段的字符识别算法进行调研分析,现阶段的主流字符识别算法框架是“特征提取网络(CNN)+循环卷积网络(RNN)+CTC(Connectionist temporal classification)算法”。本文对以GoogleNet,ResNet以及DenseNet为特征提取网络的主流字符识别算法进行了实验,并对算法效果进行了对比分析。针对主流字符识别算法对硬件条件要求过高,占用内存过大,计算速度无法满足实时性要求的问题,提出了两种轻量级字符识别模型。一种是改进的 DenseNet 轻量级字符识别模型,一种是基于深度可分离卷积的轻量级字符识别模型,并将这两种轻量级网络与现有的主流框架下的字符识别网络进行了对比分析。实验可得,本文所提出的这两种轻量级字符识别算法与传统的字符识别算法相比,模型更小,运算速度更快。特别地,基于深度可分离卷积的字符识别网络得益于它卷积方式的不同,算法性能更为优异。
3. 由于字符识别过程利用卷积网络进行识别,无法达到百分之百的准确率,针对字 符识别模型的识别结果存在的错误识别问题,本文提出了基于自然语言处理的中文形近字纠错算法用于字符识别网络后端,进一步提升字符识别系统的检测精度。字符识别网络是依据文字的形态特征进行判断输出,识别错误的字符与正确的字符大多是形态特征相似,因此本文所提出的纠错算法主要是针对中文形近字之间的错误。本文提出了两种对中文形近字的纠错算法,一种是基于隐马尔科夫模型(HMM)的纠错算法,它是检测到语句错误之后,使用字库对所检测到的错误进行替换,完成纠错,纠错字库由前端的字符识别模型经过一系列处理获得,使得算法更具针对性。另一种是基于encoder-decoder机制的纠错模型,依据前后文所提供的语义信息进行纠错,同时还考虑到了实际应用场景中专有名词在纠错时的不良影响。通过实验比较,基于HMM的纠错算法纠错速度更快,基于encoder-decoder机制的纠错算法在长语句纠错场景下表现优异,二者都可以很好地服务于证件票据的识别纠错。
4. 将上述本文所提出的算法融合,设计出一套针对证件票据的字符识别系统,并利用pyqt5工具完成系统与用户交互化界面的设计工作。本系统实现了对手机、相机等摄像设备所拍照得到的证件票据图像进行字符识别,转化为文字信息的过程,主要分为三个部分,包括图像目标区域的提取,字符识别,识别结果纠错。用户可以在交互界面中根据自己的需求建立自定义词典,选择所要识别证件票据的底色。识别完成后,用户可以得到字符识别网络的识别结果以及纠错之后的最终输出结果。经测试,在本文所设定的应用场景下,识别的准确率可达到98.37%。本文所设计的字符识别系统能够很好地达到对证件票据进行字符识别的准确度要求,同时,由于轻量级网络的引入,该系统在保证识别准确率的情况下还能够满足识别实时性的要求。