向中文试卷的手写字符识别关键技术研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:kirk318
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写字符识别是指将图片中所展示的图片文字转换为计算机可编辑的文本文字。运用计算机技术实现对手写字符的识别对于保存和利用文字信息具有重要的意义。由于试卷中字符类别的多样性、手写汉字字符结构的复杂性、考生字体的不一致性以及教育问题的严谨性,面向教育领域的手写字符识别具有更高的识别准确率要求。目前,基于深度学习的字符识别技术取得了不错的发展,但针对于教育领域的手写字符研究还处于起步阶段。本文旨在借助于深度学习研究和实现面向中文试卷的手写字符识别关键技术,实现答题卡内容的数字化存储和利用,促进智能化阅卷的过程,进一步推动教育事业面向智能化发展。针对考试场景对识别准确率较高的要求,本文主要采用单字识别模型。在对答题卡字符进行切分的基础上设计了多个不同的卷积网络模型,主要包括手写数字识别模型、手写汉字字符识别模型,最终在两个真实考试场景测试数据集3768类字符上实现了较高的识别准确率。论文的主要工作有:(1)针对单字识别中的分割问题,研究和实现了面向试卷的手写汉字字符切分,设计基于投影的动态行分割,采用局部最小搜索算法寻找相邻文本行之间的切分轨迹,将多文本行答题卡分割成多个只包含一行字符的图片;针对单行文本实现了基于Viterbi的字符过分割,构建字符图像隐马尔可夫模型,寻找非线性切分路径,利用启发式规则删除冗余切分线;采用A*搜索算法寻找具有最小代价值的切分路径组合,实现过分割路径合并,将文本行分割为只包含单个字符的图片。(2)针对手写数字字符识别,设计了基于卷积网络的识别模型用于实现对考生考号、座位号以及各类试卷中的手写数字识别,在真实考试数据集上实现了99%的识别准确率。(3)针对手写汉字字符识别,设计了多个基于卷积网络的识别模型用于实现试卷答题卡中3755类手写汉字、12类标点和划掉字共3768类字符的高准确率识别。主要包括:基于AlexNet改进的模型,采用适合手写字符的小尺度卷积核提取特征,搭建多层卷积网络结构,多种方式随机增广字符图像增加样本多样性;基于二分类的模型,在卷积网络学习的基础上增加字符图像先验知识,利用汉字标点二分类概率值提高标点符号的识别准确率;基于改进损失函数的模型,在softmax损失函数的基础上增加余弦和角度边界,尽可能地突出不同类字符之间的差异性,提高字符分类准确率。最终在两个真实考试场景测试数据集3768类字符上实现了 94%的识别准确率,效果优于对比方法。
其他文献
小仙:登泰山,可谓是再寻常不过的一段旅途了,但背着沉重的的摄影器材、顶着风雪、披星戴月地登上泰山之巅,饱览并拍摄雪中山色,就绝非寻常了。我们没有真正体验到雪中登山的乐趣和
进入"新常态"以来,我国经济发展中出现了一系列的问题,其中,供给侧结构性问题是最严重、最亟待解决的领域。推进供给侧结构性改革是适应和引领我国经济发展新常态,实现经济发
为了解决当前双随机相位加密系统的明文与密文函数之间相对简单的依赖关系,导致加密系统的安全性能不高等难题,引入非标准二阶互逆-正交参数变换,设计对合参数变换,并将其引入到双随机相位加密系统中,提出了对合参数变换耦合双随机相位的图像加密算法。利用位置集合置乱技术扰乱明文;由对合参数变换与相位矩阵,设计加密函数,完成置乱像素的扩散;并将递归运算嵌入到对合参数变换中,实现加密系统的简单结构及快速计算。仿真
为增强固态功率控制器(SSPC)应用的灵活性,解决每一路超控信号只能控制固定的功率通道,避免一旦发生固态功率控制器的控制模式改变就必须更改电子硬件逻辑,设计了一种基于CPLD
东方风电立足于超过7000台风电机组的运行经验,自主开发自己品牌的变桨系统。在经过仔细分析比较后,东方风电最终选用交流伺服驱动器和交流伺服电机方案。
以研华经典工控机IPC-610系列为代表的工业计算机广泛应用于智能制造、智能交通、环保、电力、军工、航天等领域。工业级的坚固机箱、专业的防尘散热设计、高规格的防震指标
目的探讨2型糖尿病(type 2 diabetes,T2D)患者的体成分和骨密度(bone mineral density,BMD)随年龄的变化。方法入选1534例T2D住院患者,男860例,女674例,年龄2085岁。所有患者按性别各自分为4个年龄组:≤54岁,5564岁,6574岁,≥75岁,采用双能X线骨密度仪(Dual-energy X-ray absorptiometry,DEXA)测定
当一个人静静立在窗前,望着窗外的繁星,倾听着它们的喃喃细语,感觉微风的温柔深情———入神时,你会不会对着那个感觉属于自己的内心世界微笑一下芽专注地。