自然场景下的文本定位与识别研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:LAP281482184
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文本检测与识别,比如路边或者建筑上的指示牌、交通标志、商品名称等关键文本的检测与识别是计算机视觉、机器人、盲人阅读等领域的重要组成部分。随着该领域的迅速发展,如何从场景图片中高效地获取文本信息成为近年来研究的热点之一。自然场景下的文本检测与识别包括字符区域检测、文本行检测和文本识别三个主要步骤。本文在研究和总结国内外优秀算法策略的基础上,根据自然场景下文本的特点,对以上三个部分进行了深入的研究,其主要内容如下:(1)针对不同的应用场景,设计了两种字符区域检测方法。首先,由于在图像模糊、光照不均匀、弱光照等情况下,文本的边缘部分会产生严重的畸变,导致字符区域检测算法难以取得理想的效果。为了解决这个问题,本文利用物体颜色分布的空间局部性,设计一种多级二值化候选字符区域检测方法,在综合图像的三个通道的基础上使用多级二值化与两趟连通域标记算法实现候选字符区域检测。其次,考虑到大部分自然场景下,文本相对于背景具有清晰的轮廓,.为了提高在这些场景下的文本检测速度,设计了一种基于图像分层的候选字符区域定位方法,该方法将图像看成由一系列组件堆叠而成的树模型,利用组件检测的方法检测候选字符区域,并且根据字符在整个图像树中的分布特点,去除部分非字符区域,有效地提高了检测的速度。(2)为了整合字符区域中可能包含的文本行并且考虑到自然场景中的文本行可能以任意排列方向呈现,设计了一种基于图模型的文本行检测方法。该方法首先根据字符区域的空间分布信息和几何信息构建图模型,然后使用基于图的搜索策略进行检测候选文本行,最后为了去除非文本行,提取候选文本行中各个区域的联合特征和根据倾斜方向自适应调整的整体特征,使用Adaboost分类器进行分类,结果表明该方法对任意方向文本行都具有很好的检测效果。(3)针对文本识别,使用Tesseract OCR与Google拼写校对相结合的识别方法。由于自然场景中文本的复杂性,导致Tesseract OCR难以取得理想的效果,为了解决这个问题,首先,在使用Tesseract OCR识别前,结合文本区域的前景分布和边框颜色分布去除文本行图片中存在的背景障碍物,然后对文本行区域进行倾斜与错切校正,最后对识别的结果使用基于Google拼写校对的方法进行修正,结果表明该方法有效地提高了识别准确率。
其他文献
学位
地理信息系统(Geographic Information Systems,GIS)在经历其40余年的发展之后,以其数据处理、地理模拟和空间分析能力的强大优势已经渗透到生产、生活的多个方面。随着计算
随着铁路跨越式发展的不断深入,车务部门在既有信息化建设基础上,对现有信息系统进行集成改造,以提高信息化对于铁路跨越式发展的支撑能力,并缓解铁路信息化建设中凸显的异质
卡通渲染(Cel-Rendering或Cartoon Rendering)技术是非真实感渲染技术(Non-Photorealistic Computer Graphics,NPR)的一种,其目的是将输入的场景渲染成卡通风格,其绘制特点是
可视化作为理解复杂现象与数据的有效手段,在各个领域得到了广泛应用。其中,粒子系统方法是迄今为止用于描述不规则物体比较成功的方法之一,尤其是对边界不明显的模糊物体的
网格计算可为网格用户提供更多的资源、功能和交互性。对于像网格这样大规模的分布式系统,资源利用的合理性始终是需要关注的一个重点。因为网格中的已有节点可能会因为各种
随着经济的的发展、城镇建设速度加快,安全城市建设成为社会发展的趋势,安全城市建设大多以现有公安系统为主体,目标是建成涵盖整个城市的视频图像监控系统,目前安全城市的视
当今世界台风灾害所造成的破坏非常严重。由于它的不可预知性,常常在很短的时间内造成人员伤亡和财产的巨大损失,并可能直接或间接的导致其它灾害以及更为广义的社会灾害。将
无线传感器网络技术是一种集传感技术、微电子技术、通信技术、网络技术、信息技术等于一体的新兴技术。作为典型的无线传感器网络,其自身的自组织、动态性、易部署等特点使
海冰状态的监测是寒区海洋工程观测的重要内容。本文结合海洋工程实际,提出并实现了根据视频和图像分析来计算海冰密集度以及海冰流速和流向测定的方法,与传统的方法相比,本