基于自学习的手写表格数字字符串快速识别方法的研究

被引量 : 0次 | 上传用户:kingwaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写表格数字的识别已成为OCR领域中一个重要的应用。大量记录实验数据的表格、成绩单、票据等如果人工处理则需要耗费大量时间,且人工处理过程极其单一枯燥,正确率又不能得到保障。本论文主要介绍设计一个表格手写数字自动识别的软件,并将它应用于实际处理实验中所记录数据的表格。表格数据的识别最重要的是字符串的识别,而影响字符串识别的主要因素是字符串的分割及单个字符的识别。分析国内外表格手写数字识别的现状,得到通常情况下,表格手写数字字符识别的处理过程如下:先根据表格线的结构,对表格进行处理,得到表格内容部分;然后对单元格进行定位并提取出里面的数字字符图像;接着再对这些数字进行分割并分类结果。本文主要对表格手写数字识别的过程进行研究,表格文档图像进行预处理、定位单元格提取字符串、分割并识别字符串。预处理部分包括二值化、去躁及倾斜校正。其中,利用表格线的倾斜度来进行倾斜校正,表格线的检测时采用hough变换及viterbi算法进行效果比较。进行单元格字符定位提取时采用连接成分的方法,有效提取出字符串,而且能将不相粘连的部分直接区分开。在对字符串进行分割时使用BP神经网络分类器指导分割,提高分割正确率。这里提出置信度的概念用来确定分类结果的准确性。分割时利用字符串的轮廓进行分析确定分割路径。此外,本文设计一个整体识别的神经网络,提取单元格字符串的整体特征进行识别,对置信度低的字符串再去进行采用分割的方法进行识别。整个表格手写数字识别系统是基于VS平台用C++开发的。并经过大量测试样本运行,测试效果良好。
其他文献
根据国内有关工程塑料的文献,从加工工艺、加工设备、模具设计及二次加工等四个方面,综述了1999年我国工程塑料加工技术的进展。
北齐国祚短暂,民族矛盾尖锐、权力斗争激烈是其衰亡的重要原因。后主时期,恩倖势力迅速发展壮大,在多次政治斗争中,北齐政权赖以维系统治的两股势力——鲜卑勋贵和汉人士族相
目前我国风电产业不仅在规模上处于世界领先地位,在技术实力上也具备了赶超世界先进水平的基础,未来如果能继续依托国内稳定的市场拉动,我国风电将引领全球风电行业发展。因此企
<正>2013年,世界国防工业改革与发展进一步加速,"技术突破"、"能力优先"、"合作与共享"成为发展主题2013年,主要国家根据国际形势变化不断出台振兴国防工业的政策措施,调整军
<正>日本新版防卫白皮书凸显日本防卫政策的根本性变化,充斥着"强军、备战"气息,为安倍内阁推动"修宪、建军"和防卫政策由"守"转"攻"大造舆论,其谋求"军事大国"的野心暴露无
中国几十年的发展已经对环境产生巨大影响,环境保护的能力不够,生态环境问题日益恶化的趋势不能得到有效的限制;资源利用逐渐紧张的状况下,还存在利用资源效率很低,环境严重污染等
以泉州市泉港区某道路采用抛石挤淤结合强夯法置换处理软基为例,阐述了软基处理方案的选择、设计与施工。采用钻孔揭露结合瑞雷波法对软基处理效果进行检测,通过计算校核检测
<正>要使军工行业更好地服务国民经济建设,必须抓紧解决国防知识产权的扩散、转移和产业化等难题,这是统筹经济建设和国防建设的重要举措近年来,我国的国防知识产权量增长迅
分析对二氯苯硝化后物料不易快速分层的原因,结合2,5-二氯硝基苯的生产情况提出解决方案。
乳胶粒形态是乳液聚合比较重要的问题,不同的乳胶粒形态对乳液产品的性能起不同的作用,研究乳胶粒形态产生的机理、发展的过程,一方面可以丰富乳液聚合理论,另一方面有重要的实际