复杂底板背景下的中文票据字符识别方案

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xyhnet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
票据在我们日常生活中扮演了十分重要的角色,将票据字符图像转化为计算机可以处理的文字数据是OCR技术的一个重要应用场景。现有方案通常使用图像预处理获得灰度图像,然后输入深度神经网络进行识别,在大多数情况都有出色表现。但是在一些情况下,由于印章、票据模版等因素的影响,字符的底板背景更为复杂,现有方案表现较差,其主要是由于复杂底板背景下对图像进行预处理难度较大且效果不稳定,对于不同版式票据往往不能通用。针对以上所提缺点,本文提出了针对具体版式票据训练专有字符识别网络的方式,直接对原始图像进行训练及预测,避免了图像预处理可能带来的字符信息丢失问题,并根据本文场景设计了一种特征提取能力更强的网络结构,同时制定了样本扩充策略以保证有充分的数据进行训练。最终实验结果显示本文的方案相对于以往方案显著提升了识别准确率,并且在不同版式的票据上都有较好表现,方案的通用性较强。其次,由于票据的姓名、地点名等字段经常包含生僻字,本文从数据和算法层面上构建方案来改善生僻、低频字符的识别效果。在数据层面上,本文通过待识别字符随机组合成语料,并生成对应训练样本的方式来提升生僻字出现的频率;在算法层面上,本文根据票据字符识别的特点去除网络中的循环层以降低模型体积、提升训练效率,并根据训练数据特点使用不同的loss函数分阶段训练。实验结果表明本方案可以有效提升模型对于生僻字、低频字的识别效果。
其他文献
学位
学位
随着人口老龄化趋势日益明显,对养老服务人才的需求也更为突出,但是当前养老服务人才的增长速度并不能满足老年人口的增长需求,而且当前很多养老服务人员的护理水平并不高,因此,加强对养老服务人才的培养至关重要。学校培养方面,当前高职院校养老服务人才培养人数较少,很多学校并未设置养老服务专业,而且一些设置了相关专业的学校在培养模式上也存在一定问题。基于此,本研究认为有必要结合广州市养老服务市场的实际需求情况
学位
学位
学位
高中思想政治课是落实立德树人根本任务的关键课程,也是培养学生形成正确的世界观、人生观和价值观的主阵地和主渠道。习近平总书记在学校思想政治理论课教师座谈会上强调,推动思想政治理论课改革创新,必须坚持灌输性和启发性相统一等八项原则。其中灌输性和启发性相统一的原则,其具体含义是:思想政治课教学要旗帜鲜明地向学生传授马克思主义基本理论知识,加强马克思主义理论教育。同时又要讲究灌输的方法和实效性,注意循循善
共价有机骨架材料(COFs)是一类由共价键构筑,具有周期性结构和结晶性的有机多孔聚合物。本论文的工作主要研究了亚胺类共价有机骨架材料在非均相催化领域的应用。主要内容分为两部分:第一部分内容,从经济角度出发,结合共价有机骨架(COFs)的轻质多孔的特点和银纳米颗粒在催化降解污染物领域的应用,我们选择了原料廉价易得的2,4,6-对甲酰基苯氧基-1,3,5-三嗪(TPT-CHO)和水合肼为构筑单元合成了
学位
学位