基于深度学习的手写文本识别方法研究与应用

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:loveherway110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技的快速发展,人们习惯用计算机来加工存储文本信息,然而由于方便性,快捷性等特点,手写文本依然随处可见,并且计算机普及前的大量手写文本资料有着使用、处理和保存的需要,因此运用计算机技术实现对大批量手写文本的识别,具有重要的应用价值。本文将信息增益的思想融入到深度学习的样本学习阶段,并应用于识别脱机手写文本。经实验,模型识别率提高,训练时间缩短明显,最终把研究成果应用到手写文本识别系统中。本文的主要工作有:(1)考虑到手写文本识别图像采集过程中存在和出现的问题,采用图像旋转,归一化,图像去噪,图像灰度化,图像二值化等图像处理技术对手写文本图像进行预处理。在预处理前,本文对各种预处理技术的多种方法进行了比对及实验,并选择了适用于手写文本图像处理的各种方法,具体包括采用霍夫变换进行文本图像倾斜校正,采用均值滤波法做图像去噪处理,采用最大值法做图像灰度化,采用全局阈值法做图像二值化,采用改进的直方图投影法进行大篇幅的手写文本分割,采用双线性插值法做图像大小的归一化。(2)使用BP神经网络及卷积神经网络算法对手写文本图片进行识别,并辅以基于信息增益的样本学习方法,观察模型的最高准确率及运行时间。本文提出三种信息增益方法,旨在当模型具有一定识别率后,不再盲目地学习所有样本,而是基于信息增益的思想有选择性地学习样本。方法一:增加信息增益学习系数I,对神经网络已经能轻松识别的样本适当地少学习,而对那些识别率不那么高甚至可能识别错误的样本进行适当地多学习。方法二:增加学习阻断阈值F以减少模型对垃圾样本的学习。方法三:引入对模型信息增益较高的样本作为专家样本。经实验,方法一与方法二都有助于模型学习效率及模型识别准确率的提高。以手写数字为例,在达到同样等级准确率的情况下,方法一与方法二的模型学习时间分别是先前的54.4%与59.3%。(3)基于本课题的研究成果在华为云的Model Arts平台上构建了手写文本识别原型系统,原型系统具有手写文本识别,人工复核等功能,具有一定的应用价值。其中,人工复核是为了保证识别的高准确率,其在模型识别后为模型识别置信度较低的样本进行人为识别校验,其原理是:随机取出大量样本并各自得出模型Softmax函数的输出S值,可以假定这些S值服从正态分布,并基于3σ原则以及识别文本的重要性程度确定人工复核的S值的阈值。
其他文献
学位
学位
磁致电阻在磁随机存储器、磁阀、磁传感器、磁开关等器件的制造上有着较为广泛的应用。利用磁电阻效应能够更准确地测量位移、角度、速度等物理量。最近,AB2型化合物引起了人们的广泛关注,由于其具有良好的拓扑性质、超导和大的磁电阻等性能。在非磁性单晶中,磁电阻与外加磁场引起的态电子密度变化密切相关。针对这一课题,本文对RuSb2+δ单晶中磁电阻变化和带隙性质并推测其能带结构以及Mn掺杂RuSb2+δ电输运和
本论文以沁水盆地南部郑庄区块为研究区,研究区内主采煤层为二叠系山西组3#、太原组15#煤层,虽然研究区煤层气藏资源潜力大,保存条件良好,但研究区构造发育程度差异性较大,煤体结构复杂,储层低渗-低压,开发难度大。论文基于研究区构造、含气量、埋深等基础地质资料和平均日产气量、平均日产水量等实际生产数据,通过数据对比分析,现场实验测试等手段,对研究区内煤层气生产规律及各类参数相关性进行了探究。主要得出以
学位
对水利工程社会稳定风险进行调查与分析,能为工程建设项目社会稳定风险的防范工作提出指导性意见,达到项目建设平稳推进和高效运行的目的。本论文结合“盈江县长地方水库”工程案例,对其社会稳定风险进行调查与分析。首先采用文献法、问卷法、访谈法、实地踏勘对工程建设区环境状况、工程建设合法性、工程建设合理性、工程建设可行性、社会稳定风险可控性等几个方面进行抽样调查,然后通过“客观--主观”分析、“内部-外部”分
学位
目前,我国城市建设正逐渐由增量扩张转向存量优化阶段,老旧住区作为体量最大的存量城市空间,它的改造是优化提升城市空间质量的必由之路。2019年7月住建部会同发改委、财政部发布《关于做好2019年老旧小区改造工作的通知》,2020年7月国务院办公厅印发《关于全面推进城镇老旧小区改造工作的指导意见》,2020中央经济工作会议将推进城镇老旧小区(老旧住区)改造作为城市建设的重要内容。密集出台的政策说明当前
广泛应用于石油、化工、食品、医药等行业和高校各种科学研究项目的搪玻璃搅拌釜,往往需要通过对夹套交替通入冷冻盐水/蒸汽来达到冷却/加热的生产工艺需求。在工程现场检验检测及安全检修中发现,冷冻盐水/蒸汽交替频率、使用周期、冷冻盐水浓度和p H值、是否添加缓蚀剂、缓蚀剂种类和浓度不同,都会对设备夹套及其连接管道造成不同程度的腐蚀,造成设备非计划停车,轻则影响工业生产,重则造成安全事故,威胁设备和人员生命
盐酸多塞平片(规格:3 mg)是由Somaxon制药有限公司研发的普通型片剂,商品名Silenor,用于治疗成人的失眠症。国内暂无仿制和进口。本论文旨在对盐酸多塞平片(规格:3 mg)的处方和制备工艺进行研究,并进行质量研究和稳定性考察,确定处方的合理性和制备工艺的可行性。论文对原研产品进行了充分调研,对原研产品公开的处方成份进行了处方设计,调整了处方中辅料的用量,通过影响因素实验探讨确定了处方。