基于数学形态学和RANSAC的文本图像变形矫正

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:muma123muma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像和视频中的文本字符,是图像高层语义内容的一个重要来源,包含许多非常重要信息,如街道名称、商店名称、路标、交通标示等,这些信息对于图像和视频资料的自动注释、索引等方面有重要的参考作用。  随着数码相机、拍摄手机等设备的普及,文字识别技术逐渐进入视觉文本图像这一广阔的领域。手持数码相机拍摄带有字符内容的图像时,由于拍摄文档本身的倾斜、弯曲以及人为因素的影响,所拍摄的文本图像经常存在几何变形。这使OCR(Optical Character Recognition)系统无法识别图像中的字符。为解决这个问题,需要对这些文本图像进行必要的矫正。  根据文本图像变形原理的不同可分类为倾斜变形和透视变形。目前的研究主要集中于倾斜变形,透视变形的研究刚刚起步。变形矫正的研究思路集中于应用图像处理方法和统计学方法获取变形参数,然后根据计算机视觉中仿射变换对图像进行恢复,得到矫正后图像。  本文针对文本图像的倾斜变形和透视变形进行研究,处理步骤包括预处理、特征提取、参数估计、变形矫正四个步骤。在预处理过程中,本文采用大律法的二值化处理方法和图像归一化来提高系统对多尺度图像矫正的鲁棒性;在特征提取的步骤中,本文利用文本图像的特征结合数学形态学方法,针对不同的变形情况选取形态学因子,从而得到特征点图像;在参数估计中,先通过聚类方法和最近邻方法提取特征点的聚类信息,然后,采用线性回归拟合文本基线并使用RANSAC(Random Sample Consensus)算法等统计学方法计算基线位置,从而获取变形参数;最后,通过图像仿射变换投影变换完成文本图像的变形矫正。  本文提出的文本图像几何变形矫正法,既可以处理人工文本,也可以提取场景文本。有效地矫正图像的倾斜变形和透视变形,在智能人机接口和基于内容的图像检索服务领域中,都将具有广泛的应用前景。
其他文献
基于深度图像的手势识别技术随着深度传感器的发展已经逐步替代已有的其他传统手势识别技术。通过深度信息的获取大大简化了手势分割和手势追踪的处理过程,这两者都是手势识
经济全球化极大地推动了企业信息化,信息技术和网络技术的迅猛发展又加速了企业间信息系统的整合。在这种趋势下,企业之间的业务协作越来越频繁,同时也越来越复杂。为了打破
随着计算机通信技术和互联网的飞速发展,多媒体数据特别是数字图像逐渐成为人们获取信息的重要来源,成为人们生活的重要组成部分。但随着图像处理技术的发展,人们对数字图像
如今传统的Web已经不能满足我们的需要,Ajax技术的出现给传统的Web带来了巨大的冲击。同时Ajax框架及其应用模式成为普遍关心的问题。本文着力对其进行深入分析研究,发现Ajax框
随着Flash产业的发展与成熟,Flash存储器作为一种新的存储介质已经被广泛应用到计算机系统中,并有全面取代磁盘的趋势。由于与传统磁盘的读写特性不同,Flash存储器上的数据管理
本文在研究汉语句子相似度的过程中,针对汉语由语素构成词语,由词语构成语句的特点,分别对汉语中的义原、词语、句子三个层次的相似度计算进行了研究。并根据问句自身的特点,对问
时空数据建模技术已成为当前领域的一个重要研究方向,主要包括获取地理现象的空间、时间及属性的完整描述信息,实现时空数据的统一存储、管理,并按不同需求提取,完成时序、空间和
随着互联网的不断发展以及各种低码率视频压缩标准的提出,网络流媒体视频传输也日益普及,这给多媒体的版权问题提出了新的挑战,同时也为基于网络流媒体视频进行隐藏通信提供
无线传感器网络已经广泛应用于环境监测、目标追踪、地理路由等领域。大量低成本、多功能、微小体积的无线传感器网络节点可以布置在一定的区域形成一个大规模的、动态拓扑结
本文的研究来源于导师的课题《教育云平台的运营和管理研究》。主要研究跟教育云服务平台相关的管理和运营关键技术问题。《教育信息化十年发展规划(2011-2020年)》[1]对于国