论文部分内容阅读
中文连续手写识别是利用计算机对输入的中文手写文本信息进行自动识别,提取出相应的文字内容。在随着以人工智能等为核心驱动力的第四次工业革命到来,手写识别在许多人机交互场景中都扮演着重要角色:如快递自动分发、智能阅卷、信息录入等等。特别地,我们国家人口众多且在世界上占据越来越重要的地位,研究中文这种特定的文字识别就显得尤为重要。然而相对于孤立字识别而言,连续文字识别隶属于序列求解问题的一种,如何进行有效建模本身就是研究的一个难点。自20世纪以来,研究者们便基于统计建模的方法提出了许多解决思路。这些方法按照是否需要对图片进行显示地预切分可以分为过切方法和非切分方法。一方面,准确地寻找分割点往往成为过切分方法的性能瓶颈;另一方面,受限于传统分类器的表征能力,不同方法的识别性能一直没有取得很大的进展。近年来,随着可利用的海量数据的获得以及深度学习技术的突飞猛进,无论对以预切分为代表的过切法还是对无显示分割的方法,连续手写识别的性能都有了极大的提升。尽管基于深度学习的已有方法相比传统方法获得了明显性能的改进,但是仍然有一些值得进一步研究的地方。第一是如何将传统序列模型与深度学习技术更有效结合来实现对训练数据,特别是大量孤立字符数据的充分利用;第二是中文字符本身种类繁多、相似度高,如何通过数学模型来自动侦测、聚类这些字符间的相似基本单元从而提高神经网络的建模能力以及减小解码器在字符识别中的模糊性问题;第三是考虑到写字人在无约束书写环境下千变万化的书写风格,如何利用自适应技术来实现写字人自适应,进一步提升识别性能;最后,如何通过设计更紧凑的网络模型,实现高类别数下的低存储消耗、低运算量分类器。因此,针对中文连续手写识别问题中的以上几点挑战,本论文研究新的解决思路。值得一提的是,针对某些问题所研究的新方法具备一定普适性,可以自然扩展到其他领域。首先,针对以往主流序列模型中分类器能力有限、训练集数据利用率不足的缺点。本论文提出运用神经网络和隐马尔可夫模型相结合的方式来处理中文连续手写文本识别。本论文从特征提取、分类器设计、训练准则、语言模型选择四个方面详细讨论所提出方法的有效性。基于隐马尔可夫的建模方法能充分利用训练集的孤立字符样本,提高数据利用率,缓解训练集中连续文本行不足带来的压力。同时,结合建模能力强的神经网络分类模型和语言模型,识别率可以优于其他主流方法。其次,在前一个研究搭建的最优系统基础上,针对中文字符类别多、相似度高的问题,本论文引入状态绑定技术将中文字符中相似部件聚类,从而减少总的状态数,提高卷积神经网络的可训练性和区分能力以及降低解码过程中因相似部件得分不一致带来的解码歧义。针对写字人风格多变的难点,通过在卷积神经网络中引入自适应层,将状态绑定与无监督自适应技术结合,降低写字风格带来的性能损失,使得识别性能能够进一步提升。进一步地,为了降低前述自适应技术带来的时延问题,本论文提出一种新颖的基于辅助的写字人风格抽取网络,通过将提取到的风格信息导入基线识别网络,实现快速自适应的目的。最后,针对高类别数的卷积神经网络存储消耗大、计算量高的缺点,本论文提出一种结构与知识相结合的蒸馏流程。所提出的方法,通过结构分析、紧致卷积开发、知识蒸馏三个环节的有机结合,在性能基本不损失的前提下,有效构建了一个更加紧致的分类模型。该方法不仅在本论文关注的中文连续手写识别任务中得到较好应用,也在其他主流分类模型、任务上得到较好的验证。