文档图像自适应二值化与字符识别

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:evanchou8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代办公逐步走向数字化,将纸质文档图像转化为数字电子文档的需求逐渐增多,但是直接将其扫描成图像存储或者人工录入,显然效率低,数据量大。OCR技术使得纸质文档图像到数字文档转存更加便捷,随着OCR技术的逐渐成熟,OCR也开始不断被各行各业所应用。目前OCR适合识别高质量的文档图像,但是对于处理低质量类型的文档图像效果并不理想。因此对于OCR技术应用于识别这些低质量文档图像的算法仍需进一步的研究。本文通过研究降质类型文档图像特点,发现对于降质文档图像的OCR处理性能关键在于图像的预处理也就是二值化处理过程,而对于多字体印刷体汉字的识别,需要在保证其具有高效的识别率同时保证识别系统的稳定性。因此本文通过大量研究国内外二值化算法以及字符识别算法,分别对低质量文档图像二值化以及多字体印刷体汉字的识别进行相应的改进研究,以提高OCR系统的识别率和稳定性。本文的主要工作如下:第一,本文根据图像的灰度直方图之间即存在一定差异又存在一定联系的特性,分析了经二值化算法分类后的图像灰度直方图特征属性,通过将已有的二值化算法与SVM结合,实现对任意文档图像实现自适应选择二值化算法,该算法首先对DIBCO标准库中的图像进行处理,按优以预定的二值化方法对处理后的图像进行归类,其次提取图像的灰度直方图的特征属性作为特征向量,其对应的图像二值化算法作为标签建立训练样本,最后采用SVM建立自适应选择模型,以达到自适应选择二值化方法的目的。第二,本文深入研究了多字体印刷体汉字的特点以及卷积神经网络的结构,提出了一种基于Le Net-5结构的改进网络结构,主要对Le Net-5结构中包括对输入层、隐藏层、激励函数以及输出层进行改进。增加特征提取层的同时又通过减少全连接层来降低训练参数,从而减少训练成本。以改进的Le Net-5网络结构对一级字表中的不同笔画结构的100个不同字体的印刷体的汉字进行识别。
其他文献
当今社会环保要求越来越严格,环境保护已经成为一个永恒的主题。轻量化钢铁产品已经成为目前发展主流,随着国内外冷轧企业的崛起,冷轧产品竞争越来越激烈,此外随着汽车、高等级家用电器等制造工业的快速发展,用户对产品质量的要求越来越高。目前国内先进企业鞍钢、首钢等正在进行汽车板和高等级家电板的快速开发和上量。为了满足汽车轻量化要求,大量采用高强度汽车板,例如DP780、DP980等。唐钢高强汽车板有限公司1
铜绿假单胞菌(Pseudomonas aeruginosa,PA)是革兰氏阴性非发酵菌,在自然界中分布广泛,是引起医院感染的主要致病菌之一,易获得性耐药,而碳青霉素类被认为是抗多重耐药的革兰
目的:1.研究大鼠外伤性视神经损伤模型视网膜神经节细胞(RGCs)数目的变化2.研究大鼠外伤性视神经损伤模型视觉电生理的变化方法:实验一:大鼠外伤性视神经损伤模型的建立及视网
随着医疗技术和器械的进步,胆道外科发展也走进了新的里程,手术并发症逐步减少,但是医源性胆管损伤仍然是不能忽视的问题。早期处理不当,如术式选择不当、手术时机选择不佳和
中国房地产价格的持续上涨,引发了学者对于房地产商价格合谋的思索,笔者从经济学市场竞争结构入手,得出价格合谋的市场条件:房地产业区域性寡头垄断竞争结构,以及在区域性寡
上市公司收购与反收购的控制权之争,是一种商业行为,也是一个国家证券市场生机和活力的体现。目标公司与收购方的利益博弈,是产权与管理权分离的现代公司组织框架模式下,取代管理不善、效率低下的经营人员,降低生产成本,实现公平最大化和社会资源优化配置的重要手段。优胜劣汰的市场机制,收购方的强势收购可以倒逼公司管理层通过整改等方式强化内部管理,也可能促使其为了维护自身收入或权利等固有利益而奋起反击,各项收购抵
目的使用新型气管切开换药方法在气管切开护理中的应用。方法将我院30例气管切开术后患者按气管切开时间先后顺序进行分组,分为对照组和观察组各15例。对照组使用碘伏消毒后,
目的总结某二级甲等综合医院2015年-2018年期间住院患者死亡原因,为医院管理、疾病防治以及合理配置医疗资源提供决策依据。方法选取2015年1月1日-2018年12月31日的住院患者
简要回顾了我国粉末高温合金的发展历史,概述了FGH95粉末涡轮盘、挡板的生产工艺和研究进展情况,分析了粉末高温合金中存在的缺陷以及质量控制,介绍了粉末高温合金今后的研究
高技术产业对经济发展具有巨大的推动作用,其技术创新能力更是一个国家竞争力强弱的重要标志之一,因而有效评估、管理高技术企业的技术创新绩效,是促进其技术创新能力提升的有效途径。人力资本是知识的载体,往往被看作是知识的提供者,它是影响创新绩效的重要因素。当前,这一领域的文献主要探讨了人力资本与区域经济发展、创新之间的关系,而不同类型人力资本与技术创新关系的研究还较为匮乏。此外,在人力资本推进技术创新的过