低质量文本图像OCR技术的研究

被引量 : 41次 | 上传用户:william__2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文对低质量文本图像的OCR技术进行了深入的研究,目标就是从理论,算法和应用三个层次上研究低质量文本图像的高性能识别问题。研究工作主要包括以下几个方面:首先分析论述了低质量文本灰度图像条件下,文字识别与人的认知、经典人工智能问题、以及二值图像识别技术之间的关系,对低质量文本图像OCR技术的研究方向提出了有别于传统的观点和看法。在上述理论框架的指导下,结合低质量文本自身的特点和规律,设计了一个低质量文本图像的识别流程,并在各主要步骤给出了实用高效的算法,主要有:基于连通区域的层次结构切分算法:不同于传统的先行列切分,再字切分的算法过程,本方法采用了由小到大、自底向上的切分策略。通过连通区域特征的变化规律找出适用于切分的最佳阈值,再根据先验知识和启发式规则,对连通区域做适当的合并分割操作,最后得到最优的切分结果。实验表明,该方法对于低质量文本图像能够取得令人满意的切分效果。基于地形特征的种子区域增长算法:基于确定点和关键点概念,利用像素地形特征自动的选择种子点,通过一种改进的种子区域增长方法,从种子区域开始,依据一定的优先级规则,逐渐向其近邻点扩展,对单字灰度图像二值化,有效地获取了字符的结构信息。本方法与已有的二值化方法相比较,能够更好的保留有效的字符结构信息,提高了识别的正确率。基于不对称性的分类部分空间法:发现了相似字之间误识的不对称性,并对这种不对称现象的成因进行了细致的探讨和分析。基于这种不对称性,提出了一种分类部分空间方法来解决相似字的识别问题。相似字按其结构特点被分成若干基本类别,不同类别在相应的部分空间提取不同的特征进行比较,以达到正确识别相似字的目的。经百万字左右的文本测试表明,本文提出的方法对于不同质量文本的识别性能有不同程度的提高,尤其是对于质量比较低的文本(五十年代的文本数据),其识别正确率达
其他文献
参类中药常有相仿药名,有的仅一字之差,但作用迥然不同。因此,必须对参类中药名称进行严格的区分辨别,以避免误用带来危害。本文对 20多种主要参类中药的名称、功能、主治作了逐
一个冲突越来越尖锐地凸现在现实生活中:一方面,抱怨传统节日日益乏味;另一方面,名目繁多的新“节”令人疲于应付。面对这一冲突,笔者开始思考,在物质生活相对富裕的今天,人类还需要
<正>《劳动法》、《劳动合同法》、《劳动争议调解仲裁法》、《社会保险法》、《就业促进法》、《劳动保障监察条例》等法律、法规相继颁布与实施,对进一步调整用人单位及劳
股票市场是与人们的生活、社会稳定和经济发展密切相关的金融市场,如何有效地分析和预测股市走势一直是人们关注研究的问题,现在已经提出了很多理论方法和技术。在这些方法中,人
目标管理方法使一般的管理理论具体化,是提高管理效率的良方.组织目标是组织管理活动的成果指向.目标管理包括确定目标和目标体系、执行目标、对目标的实现进行评价和总结等
高效液相色谱法(HighPerformanceLiqnidChromatorgraphy,HPLC)已广泛用于化工、石油、农业、卫生、制药等各个领域。本文介绍HPLC法在药品检验方面的应用,分定性分析,杂质的检查,
由于生活水平的提高,人们对居住环境的要求提升到一个更高的层次,园林设计必须贯彻易维护管理理念。从分析园林设计与园林管理之间的关系入手,探讨易维护管理理念在园林设计
目的 探讨远处转移部位与胃腺癌患者预后的关系。方法 利用美国SEER数据库中2010年1月至2014年12月间诊断为胃腺癌伴远处转移的病例,Kaplan-Meier法绘制生存曲线,采用Cox比例
在现代信息化战争中,光电侦察与跟瞄装备的研制试验和使用维护都离不开其测试技术的保障。从4方面简述了国内外光电侦察与跟瞄装备测试技术的发展现状,目前,可见光及微光成像
世界各国经济发展的实践表明,小企业是推动区域经济增长的一支重要力量,在增加就业机会、应用新技术等方面发挥了重要作用。纵观各国成功的小企业发展经验,不难发现它们大都不是