论文部分内容阅读
随着互联网与人工智能的快速发展,教育信息化已经开始影响并改变传统教育方式,在线解答等人机交互的场景越来越普遍,手写识别问题成为了计算机视觉领域的一个研究方向。对于人类来说识别手写字符是一件很简单的事,但这对于计算机而言非常复杂。近年来,深度卷积神经网络的发展给计算机视觉领域带来了革命性的变化,卷积神经网络和循环神经网络的结合在基于图像的序列识别问题中取得了巨大的成功,推动了手写识别领域的进展。目前针对手写识别方面的研究主要集中在英文字符、数字和汉字上,并已在这些领域取得好成绩,然而这些识别只局限于一维空间上,由于复杂的二维空间结构和长度原因,手写化学公式的识别仍然是一项艰巨的任务。解决该问题,一方面可以促进手写化学方程式识别的发展,另一方面可以应用于在线解答,例如作为教学辅助手段快速批改作业,实现化学方程式快速录入计算机等等。本文针对离线手写化学方程式识别主要做了以下工作:(1)基于电子笔录入的数据样本采集,由于目前没有公开的手写化学方程式数据集,因此我们手动收集了一个新的数据集,包括6586个手写化学方程式样本。(2)提出了基于端到端神经网络的离线手写化学方程式识别的训练方法,采用CNN+RNN+CTC模型,这是基于图像的序列标记任务中的最新方法之一。CNN+RNN有助于更好地图像表示,而CTC作为一种无需对齐的损失函数,省去了对数据对应位置进行标注的繁琐工作。实验证明这种模型在识别离线手写化学方程式任务中同样表现优秀,且能较好地学习到化学方程式中包含的空间信息。(3)在CNN+RNN+CTC模型的基础上进行优化,选用前缀束搜索作为CTC解码方式,并在解码过程中分别引入两种词典,它们分别包括447个和1990个不同前缀,通过代码在内存中初始化,识别过程占用内存小,速度快。词典的引入在一定程度上弥补了 CTC条件独立性带来的弊端,实验证明这种方法是有效的,模型识别的准确率得到进一步提升。(4)本文基于上述两种方法开展实验,选取其中七个具有代表性的实验详细介绍,最终在相同的网络配置与实验条件下对两种方法进行比较,未引入词典的模型达到了 85.43%的公式级准确率和92.30%的字符级准确率;引入词典的模型达到了 87.67%的公式级准确率和94.53%的字符级准确率。