论文部分内容阅读
手写表格数字的识别已成为OCR领域中一个重要的应用。大量记录实验数据的表格、成绩单、票据等如果人工处理则需要耗费大量时间,且人工处理过程极其单一枯燥,正确率又不能得到保障。本论文主要介绍设计一个表格手写数字自动识别的软件,并将它应用于实际处理实验中所记录数据的表格。表格数据的识别最重要的是字符串的识别,而影响字符串识别的主要因素是字符串的分割及单个字符的识别。分析国内外表格手写数字识别的现状,得到通常情况下,表格手写数字字符识别的处理过程如下:先根据表格线的结构,对表格进行处理,得到表格内容部分;然后对单元格进行定位并提取出里面的数字字符图像;接着再对这些数字进行分割并分类结果。本文主要对表格手写数字识别的过程进行研究,表格文档图像进行预处理、定位单元格提取字符串、分割并识别字符串。预处理部分包括二值化、去躁及倾斜校正。其中,利用表格线的倾斜度来进行倾斜校正,表格线的检测时采用hough变换及viterbi算法进行效果比较。进行单元格字符定位提取时采用连接成分的方法,有效提取出字符串,而且能将不相粘连的部分直接区分开。在对字符串进行分割时使用BP神经网络分类器指导分割,提高分割正确率。这里提出置信度的概念用来确定分类结果的准确性。分割时利用字符串的轮廓进行分析确定分割路径。此外,本文设计一个整体识别的神经网络,提取单元格字符串的整体特征进行识别,对置信度低的字符串再去进行采用分割的方法进行识别。整个表格手写数字识别系统是基于VS平台用C++开发的。并经过大量测试样本运行,测试效果良好。