视觉文档图像识别预处理

被引量 : 20次 | 上传用户:heheaixixi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于数码相机等数字成像设备的焦距、曝光选择,以及被拍摄文档存在折痕、污渍和角度变形的原因,从而使得拍摄出的视觉文档图像产生噪声、整体明暗不均、扭曲变形等情况,这些现象轻则影响到OCR系统文字的识别率,重则无法识别。针对视觉文档图像中出现的上述问题,本文给出了噪声去除、光学校正以及几何校正等预处理方法,改善了视觉文档图像的质量,提高了文档图像光学字符的识别率。主要工作如下:1、针对视觉文档图像在获取、处理、传输中产生的椒盐噪声,提出一种基于文字笔画特性的消除椒盐噪声的算法。该算法通过判断被处理像素及其邻域像素点是否为噪声,从而有效地将文字目标和椒盐噪声加以区分。实验结果显示,相比传统的去噪和平滑算法,该方法能准确地抑制噪声,同时避免了对文字笔画的影响,减少了对后继识别的干扰。2、针对视觉文档图像存在的反渗噪声,本文根据其不同的直方图特征,分别提出处理方法。对于灰度直方图呈双峰特性的含反渗噪声的视觉文档图像,反渗印迹的灰度值与正面字迹的灰度值相差较大,可将像素值分为三个不同的区间,分别进行处理,对于中间的区间进行增强处理,而对于其余两个区间进行归一化处理,从而能够有效地去除反渗噪声;对于直方图呈现单峰特性的反渗噪声,提出一种基于背景分离的去除反渗噪声方法,经实验验证,该算法可以有效去除单峰图像的反渗噪声。3、针对具有折痕噪声的视觉文档图像,提出目标增强的处理方法,解决了折痕在识别时造成的问题,提高了OCR的识别率。4、对于模糊的文档图像,提出一种寻找文字骨架的方法,该方法能够有效地消除图像的模糊。5、对于曝光不良视觉文档图像,分两种情况进行讨论:(1)针对曝光不足的视觉文档图像所存在的问题,提出一种视觉文档图像目标增强算法,将文字图像中的目标和背景加以区分,并对图像背景进行归一化,对图像目标部分进行增强处理。实验结果显示,该方法可以有效地处理曝光不足的低对比度视觉文档图像,提高OCR识别率。(2)对于曝光过度的视觉文档图像而言,提出使用双侧增强来进行处理的方法。6、对于边缘模糊的视觉文档图像,利用小波变换将图像进行分解,根据需要对不同位置、不同方向上的某些小波分量通过扩大或缩小其系数,从而使得某些感兴趣的分量放大而使某些不需要的分量减小,使得图像得到增强,提高文字识别率。7、针对圈边文字图像,利用基于邻域跟踪的边框去除方法,有效地去除圈边及长线段。8、对于由积厚文档造成的视觉文档图像扭曲变形,利用单向伸展的几何校正方法,实现了文字行的扩大,进而分析了分栏图像的特点,并采用分段拟合校正图像的方法,提高了OCR识别率。
其他文献
民营医院作为我国医疗卫生系统重要的组成部分,其监管体系的建立健全对于提高民营医院医疗质量,保障其医疗安全,完善医疗卫生服务的全行业监管具有重要意义。民营医院监管即
目的:探讨糖皮质激素联合特布他林对慢阻肺急性加重期(acute exacerbation of chronic obstructive pulmonary disease,AECOPD)的临床疗效。方法:选取我院收治的慢阻肺急性加
人只要生下来就必须面对死亡,这是不可抗拒的自然规律。因此,死是每个人的将来,指一种最根本的现实可能性。在一般人看来,死亡是对生存的否定和剥夺,因而人们对死亡怀有一种
社区商业在国内属于近年来兴起的新兴事物,规划设计上有着特殊性,需要考虑多种专业领域的规划设计要求。目前顺德的社区商业发展迅速,不同类型的社区商业有着不同的发展表现
加强和完善我国公立医院监管体系,维护广大患者的切身利益,是我国公立医院改革与发展的重点内容之一。行业监管作为医院监管体系中的重要环节,对我国公立医院乃至整个医疗卫
<正>颈椎病(the cervical spondylosis)是指因颈椎间盘退变及其继发性改变,刺激或压迫相邻脊髓、神经、血管和食管等组织,并引起症状或体征者。它严重影响病人的身体健康和生
<正>乳腺增生为女性常见疾病,属疑难病之例。中医称"乳痹"范畴。本病特点为单侧或双侧乳房疼痛并出现肿块,乳痛和肿块与月经周期及情志变化密切相关。乳房肿块大小不等,大多
运用和发展现代教育技术实现教学模式、手段创新是新时期对外汉语发展的关键点。随着科学技术的发展,越来越多的新技术被开发并应用到教育领域,博客就是其中之一。将博客的理
《论语集注》是朱熹的精心之作,不但从训诂的角度注解了《论语》并且在注解的同时阐述了自己的理学思想,使得这部论语注本独具特色。在这部书里,朱熹使用了声训作为训释词语
目的:探讨社区综合康复对慢性精神分裂症患者家庭负担及其主要照料者心理健康的影响。方法:将200例患者随机分为4组,每组各50例。因各种原因22例患者在观察期脱落,最后认知行