文档图像几何畸变校正技术研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:sz_yaoli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉文档图像的采集通常会因为焦距变化、角度形变等多种复杂情况的出现而使图像产生几何畸变,从而影响OCR(光学字符识别)系统识别结果的正确性,甚至导致无法识别。   针对上述问题,本文给出了一种文档图像倾斜扭曲校正方法,该方法采用四个步骤对产生几何畸变的文档图像进行校正处理。首先对文档图像进行去噪和二值化预处理;其次采用连通域标记方法进行单词及文本线的检测;再根据单词连通域的中位点信息进行线性拟合得到其校正基线;最后根据校正基线和垂直位移距离分别对单词进行旋转和位移而得到校正后的图像。   本文的主要工作如下:   (1)研究了文档图像的去噪和二值化方法,针对文档图像的单词连通域大小相对固定的特点,给出了一种基于连通域标记的文档图像去噪方法,使得在去噪的同时完成单词的检测,且去噪效果明显。   (2)针对传统从上至下的文本线检测方法利用中间段单词检测文本线,存在错检和适应性差的问题,本文给出了一种从左至右的文本线检测方法,该方法利用首单词的个数来确定文本行的条数,提高了检测的准确度,并能适应双向扭曲的情况。   (3)针对传统校正基线及垂直位移距离计算方法会受文档具体内容影响的问题,本文引入单词中多数字母的高度值Hf,取高度为Hf的字母的中位点作为基线拟合的数据,排除了单词中个别字母向上或向下凸起对校正基线及垂直位移距离准确计算的干扰,并将算法的时间复杂度从(O)(n2)降为O(n)。   实验表明,本文方法能快速有效的校正产生倾斜或扭曲畸变的文档图像,并使校正后的图像在OCR识别阶段的识别率显著提高。
其他文献
随着高等教育大众化的发展,人们的高等教育质量观也在逐渐转变,认为高校应致力于满足学生的需求,提高学生满意度,高等教育服务质量问题越来越受到人们的关注。大量中外研究表明服
进入新世纪以来,国家在基础教育阶段大力推进新课程改革,制定了各门学科的新课程标准。针对英语学科,新课程标准要求在教学中以学生为本,注重培养学生自主学习的能力,帮助学
乒乓球竞技比赛比分瞬息万变,关键分处理的好坏直接关系到比赛的输赢。通过对世界优秀女子乒乓球运动员丁宁、李晓霞、刘诗雯、朱雨玲、陈梦、冯天薇、福原爱以及石川佳纯比