论文部分内容阅读
身份证作为人口信息行之有效的管理工具,已经运用到了社会生活的方方面面,身份证的信息获取具有十分重要的作用。目前,身份证中的个人信息录入大多采用人工录入,或者利用设备读取其中的磁信号。人工录入方式不但耗时,效率低下,并且容易因为人工输入原因产生信息错录入,造成不必要的损失;而利用设备读取身份证磁信号则因公安机构许可和身份证消磁等原因无法广泛使用。如果能够从图像处理的角度,让机器代替人工对图像的信息进行抓取并自动识别,将能解决人工录入问题。 光学字符识别(OCR)是近年来一个热门的研究方向,将OCR的方法运用到身份证信息识别中面临的主要问题是:身份证图像背景复杂;存在汉字、符号、英文等的混排;涉及汉字非常多。这对我们在图像预处理、字符切分以及汉字特征提取等环节提出了非常高的要求。 针对以上几个问题,我们首先对身份证进行版面分析,并针对身份证的特点,在预处理环节采用假设选择滤波器对图像进行增强;其次,针对地址信息中存在的混排以致难以切分,提出了基于汉字周期和识别反馈的切分方法,该方法通过分析字符间距周期判定连通区域的类型,通过汉字部件合并后的识别反馈,完成对连通区域合并;最后是识别切分出来的字符,本文采用了多级识别的框架,以汉字笔画全穿过特征进行粗分,并在此基础上根据汉字的结构特征,提出提取汉字笔画半穿过特征,并将全穿过、半穿过特征结合起来作为粗分的特征值,解决了单独使用全穿过特征粗分能力不太强的问题,减少了细分的工作量,对粗分不能直接区分的汉字,二级识别使用四角的能量值密度作为特征对汉字进行细分。 实验表明,该方法具有较高的汉字识别率,该系统能够较好的完成身份证信息识别。