基于中文字符级特征和语言模型的OCR字符纠错算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:sxz123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度神经网络(DNN)的OCR技术目前已能够在较为规范的数据集上取得较高的准确率。但是,当应用于真实场景时,图片重要信息丢失、图片倾斜、图片质量差等问题会导致仅基于DNN的OCR系统无法正确工作。为了应对上述问题,出现了许多OCR后纠错技术。目前OCR后纠错领域的工作较多基于英文或者类似的基础字符较少的语言,由于字符类别的数目少,它们之间的相似性小,所以纠错较为简单。但是在中文、日文等字符类别数目大的语言里进行纠错却相当困难。尤其是中文,GBK编码集中的21003个基础字符导致纠错时的相似字符候选集过大,即便只考虑GB2312中常用的3755个一级汉字,也是远超英文的52个基础字符。此外,目前大多数OCR后纠错工作仅把字符看成基本单位,比如语言模型,只考虑了字符之间的关联信息,却没有利用到字符内部的信息。为此需要扩展此类工作,以有效利用中文字符自身复杂的笔画结构信息。针对上述问题,本文结合中文汉字笔画结构信息特点,提出了基于中文字符笔画结构(Joint-Structure-Word-Embedding)的纠错候选集生成方法JSWE,验证了中文字符笔画结构对于纠错任务的有效性,同时还提出了一种基于中文字符点阵图汉明距离的候选集生成方法,解决了在上下文信息不可用时,语言模型生成纠错候选集质量较差的问题。本文主要贡献如下:1)训练了一个基于CTPN+CTC的OCR模型,并基于该模型进行数据增强,生成了一批具有OCR识别错误风格的数据集,为后续的实验提供帮助。2)提出了基于中文字符笔画结构的纠错候选生成方法,引入基于中文字符笔画结构的词向量训练方法,产生感知中文字符笔画结构的词向量,基于这些词向量之间的相似度来生成候选字符集。3)引入了基于中文字符点阵图汉明距离的方法,以字符间的汉明距离作为字符相似度度量,来解决在上下文信息不可用时BERT语言模型性能过差的问题。为验证所提出算法的效果,本文在领域内常见的公开中文数据集以及数据增强生成的带有OCR识别错误的一批数据上,进行了大量的实验及分析。实验结果表明加入了中文字符笔画结构信息后的方法能够有效地提高纠错候选集的生成质量,同时基于点阵图汉明距离的纠错候选生成方法能在上下文信息不可用的情况下找出更好的纠错候选集。最后,分别进行了词向量相似度和语义任务的实验,验证了JSWE生成的中文词向量在一般任务上的普适性。
其他文献
视觉SLAM技术已经在自动驾驶、AR和VR等场景得到广泛应用。但大部分SLAM都假设场景是静态的,而现实中的场景大多是动态的,这将造成相机位姿估计过程中关键点的误匹配,从而影响其定位精度。另外传统SLAM构建的地图往往是稀疏的,只能用于定位,无法完成导航、人机交互等高级任务。针对这些问题,本文利用深度学习模型预测的深度信息和语义信息,在传统单目SLAM基础上提出了一种针对动态场景下的SLAM算法,
服务满意度评测研究一直是服务行业备受关注的问题。传统的服务满意度评测研究更多是针对特定场景设计量表,通过统计分析量表来评测被服务者对提供服务的满意度情况,评测结果取决于被服务者自我报告的可靠性。然而被服务者往往会因为诸如他人语言提示等外部因素干扰没有报告真实的结果,所以需要一种不会被众多外部因素干扰的技术进行服务满意度状态的识别。本文创新性地提出一种基于深度学习的数据驱动模型和算法,在特定场景下,
随着神经影像技术的发展,功能性核磁共振成像(fMRI)成为了研究热点之一。其中大脑在条件刺激下的相应区域的活动反应就可以通过任务态fMRI数据来呈现,采用数据建模的方法对其进行分析能够更好地认识人脑的运作方式。近年来,深度学习方法在对多维数据进行建模方面性能表现突出而成为普遍使用的方法之一。但是目前的深度模型方法由于不能充分利用fMRI数据的时序和空间特性而导致模型性能不佳。为了能够同时提取fMR
渗透脱水是由渗透压差驱动的水分流失与蔗糖溶质渗入的过程,是芒果果脯生产中必不可少的工艺环节。但在渗透脱水过程中,由于芒果组织细胞内部阻力的存在,水分和溶质的迁移受到影响,因此工业生产中采用的常压、静置渗透脱水法传质效率低、耗时长。本文首先利用低场核磁共振技术分析了渗透脱水过程中芒果内部水分存在状态及空间分布的变化,并基于有限元仿真探究了芒果微观结构中水分的迁移规律,以期为后续渗透脱水工艺的优化提供
应用了工业机器人的生产线(以下简称工业机器人生产线或机器人生产线)在设计完成后由于生产目标的变化,需要进行优化调整以适应新的生产要求,其中主要的优化内容包括生产线的平衡优化、工作单元的布局优化和能耗优化。针对上述三种优化内容,本文进行以下研究:研究基于NSGA-II算法的机器人生产线多目标平衡方法。基于第一类和第三类生产线平衡问题建立机器人生产线多目标平衡问题的数学模型。以NSGA-II算法为基础
大黄鱼(Larimichthys Croceus)是我国特有的海洋经济鱼种,其肉质鲜美,深受消费者的喜爱。然而,过度捕捞导致野生大黄鱼产量逐渐减少,养殖大黄鱼已逐渐成为满足消费需求的重要途经。相较于野生大黄鱼,养殖大黄鱼存在着体色较浅,脂肪含量较多,腥味较重等问题,这严重影响了大黄鱼的食用品质,不利于大黄鱼养殖的可持续发展。营养调控被认为是一种改善养殖大黄鱼品质的安全有效方法。月桂酸单甘油酯(Gl
本论文基于无人机篮球竞技自演化智能系统项目,项目难点主要有:大型室内场景快速准确定位,运动物体轨迹预测以及飞行器姿态改变的悬停定位问题。本文对上述问题进行了深入地研究,并取得了以下成果。(1)大型室内场景快速准确定位。本文设计并搭建了基于三维运动捕捉的无人机定位系统,考虑到建设成本问题,本文提出了基于空间编码的室内快速定位技术。该技术将不同光色在编码位的排列组合作为特征光源的特征信息,采用空间编解
云机器人一词是云计算与机器人的结合,最早于2010年由James J.Kuffner在卡耐基梅隆大学的一次学术会议上提出。早期的云机器人研究大多针对于某个特定应用场景或特殊类别的机器人,不具有通用性。本文使用Kubernetes以及容器化技术,设计并实现了一个基于微服务的机器人容器云平台。本文研究内容主要包括以下方面:(1)明确了当下机器人云平台功能需求和非功能需求是什么;提出了一种较为通用的智能
随着社会节奏的加快和经济水平的提高,人们的饮食方式逐渐由每餐独立烹饪转变为购买便捷高效的方便食品,使方便食品行业得到高速的发展。自热食品作为一种健康美味的方便食品,已受到广大消费者的青睐。但目前的研究中,大多是对于加热装置的升级优化,鲜有对延长和预测自热食品货架期的报道,降低了消费者对食品营养和品质的期待,同时增加了企业由于货架期预估不准确而造成的生产成本,从而限制了自热食品行业的进一步发展。本论
随着信息科技的快速发展,社会对小型化移动机器人,特别是家用机器人的需求越来越高。家用机器人需求最多的当属扫地机器人,市场潜力巨大。目前扫地机器人进行环境感知的方式主要分为:超声波、红外、激光雷达、单目视觉、立体视觉、全景视觉等。属于全景视觉范畴的全景环带光学系统具有实时获得大视场、大景深的图像等优点,因而非常适合扫地机器人的应用需求。为了适应扫地机器人体积小的特点,重新设计了一个结构紧凑、光学总长