基于识别反馈的文档图像倾斜校正的研究和应用

被引量 : 2次 | 上传用户:sb129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过OCR (Optical Character Recognition,光学字符识别)技术,可以将纸制文档的内容输出为可编辑的文字。目前OCR技术的发展已相对成熟,对于扫描或拍摄质量较好的图像有着很高的识别率。然而,在对纸质文档扫描或拍照时,不可避免会产生文档放置倾斜的现象,对这样采集到的图像在进行OCR识别时,会产生很大误差,识别率急剧下降。所以对文档图像进行倾斜校正是非常必要的。在对文本图像进行倾斜校正的过程中发现,影响校正效果的因素有很多方面,如文本的字体、字型、脚本以及是否含有图片等,这些都会在不同程度上影响校正算法的效果,并给倾斜校正带来了一定的复杂性。本课题来源于国家“十一五”国家科技支撑平台重点项目--“视障者阅读辅助器具的研制”,该项目的主要目标是研制视障者使用的、基于文字识别的便携式阅读辅具。该阅读辅具通过采用OCR技术和语音合成技术实现了印刷文字和电子文档转换为语音输出的功能,这样使得视障者可以像常人一样阅读报纸和书籍。在OCR识别前需要进行对文档图像的预处理,其中倾斜校正是很关键的一步,要求能够对一般的文本都能得到一个较好的处理效果,即算法应具有良好的通用性,并要衡量时间的复杂度。基于上述目的,在学习和研究了多种倾斜校正算法后,将他们的优缺点加以总结分析,再结合视障者阅读辅具研制的具体要求,对现有的倾斜校正算法进行改进,提出了一种新的倾角检测与校正方法。该方法是基于OCR识别后反馈的信息,来选择对于待校正的文档来说备选的算法中哪种算法校正效果更好,从而使得算法在一定程度上克服了某一种算法对于各种特征的文档不具有良好通用性的缺陷。
其他文献
为了缓解日渐加剧的水危机,对城市污水厂尾水进行深度处理以实现回用具有重要的现实意义。硅藻土水处理技术是污水处理新技术,目前该技术主要运用于处理多种工业废水以及城市
健康是人类赖以生存、发展和实现自身价值的基础,而医疗服务是关系到人民群众生命和健康的重大民生问题,所以医疗服务市场应该是一个受政府严格监管的市场。但目前我国医疗服
随着市场竞争的日益加剧,要求企业必须能够快速响应市场和用户的需求变化,同时由于工业生产越来越向多品种、小批量、高质量、低成本的方向发展,为了在竞争中占据有利的地位,
近年来,随着改革开放的进一步深入,国有改制企业数量不断增多,规模不断扩大,国有改制企业在国民经济结构中发挥的作用日益增大,已成为推动国民经济发展、构造市场经济主体、
二十世纪二三十年代,缘于乡村破产,中国掀起了一场以‘拯救乡村、建设乡村’为目标的乡村建设运动。这场发轫于知识分子的运动,后来成为团体、地方政府、国家等广泛参与的乡
高职教育越来越受到国家的关注,学生的专业化的发展得到了政策性扶植.关注学生的心理寻求,了解当代职业化教学下学生的心理状态,对于组织教学活动,培养学生的健康心态尤为重
汉语新兴族词凭借其涌现速度快、产生数量多、形成具有一定的理据性等特点,成为层出不穷的新词语潮流中一种具有显著特色的语言现象。本文以近十年(20012010)产生的汉语新兴
随着人类社会教育活动的不断深入和教育心理科学研究的迅速发展,人们越来越认识到早期教育对人终生发展的重要意义,也认识到音乐教育是儿童早期教育中不可缺少的重要部分。0
我国电力供需具有“西电东送”的特点,并且随着多个大型新能源发电基地的开工建设,在相当长一段时间内这种态势将逐步增长。加之各省区间经济发展存在一定的差异,也导致了跨
唐代是我国诗歌艺术发展的鼎盛时期,格律诗在唐代达到了臻善臻美。而初唐诗坛的诗歌创作是格律诗发展的一个重要阶段。在初唐这一阶段,诗人齐名者众多,“初唐四杰”(王勃、杨