论文部分内容阅读
中文手写文字识别一直以来都是模式识别领域的一个热点研究方向。同时,无约束的中文手写识别由于其用户书写风格的多样性及手写样本的多变性,长期成为模式识别领域的一大难题。虽然规范的有约束的中文手写识别技术已经取得了非常大的发展,识别率已经达到98%以上,然而无约束的中文手写识别的识别率却远远低于规范的有约束的中文手写识别,识别率仅能达到93%左右。因此,使无约束的中文手写识别达到令人满意的识别性能就是一个急需解决的重要问题。现如今,诸如智能手机,个人掌上电脑,电纸书和平板电脑等带有触摸屏幕的手持电子设备非常流行和普及,这使得在这些电子设备上手写输入方法变得越来越重要。然而由于在实验室采集的手写数据非常有限而不能涵盖所有书写风格,导致在实际应用中手写识别率并不能达到令人满意的效果。尤其是对于某些特定用户,由于其特殊的书写风格,导致对这些用户的识别性能是难以接受的。针对以上的问题,本文致力于研究基于大规模无约束手写数据的书写者自适应的中文手写识别技术,这种技术采用大规模的无约束的手写数据来训练分类器,保证了训练样本中含有尽可能多的书写风格,进而满足大部分书写者的书写体验。同时,本文提出的用户自适应算法可以对特定用户的书写风格进行自适应学习,从而提高该用户的识别率,使该用户获得“越写越准”的用户体验。然而这项研究工作面临许多技术难题,包括,汉字书写风格多变的问题,汉字结构复杂并具有许多难以区分的相似字的问题,数据库的采集与整理的问题,增量学习中原始分类器词典的压缩问题,增量学习中对普通用户的识别率有所降低的问题,以及在鉴别特征空间(Discriminative Feature Space)进行增量学习的问题。本文围绕着这些难点对基于大规模无约束手写数据的书写者自适应的中文手写识别技术展开了一系列的研究,主要工作包括:1.针对中文手写单字识别技术进行了介绍和分析研究。包括手写文字的预处理、特征提取和分类器结合的算法设计等。在此基础上,本文提出了快速的手写识别系统和精确的手写识别系统。实验结果表明,本文提出的快速的手写识别系统的分类器词典大小仅为2Mb,而识别速度达到1.7ms/字。而精确的手写识别系统则可以明显的提高识别率,在SCUT-COUCH2009数据库上可以达到97.04%的识别率,而在CAISA-OLHWDB1数据库上则可达到93.57%。2.针对现如今公开的手写中文数据库手写样本数量有限,涵盖的书写风格和类别数太少的问题,本文采集和整理出了一套完整的无约束的手写数据库。该数据库涵盖类别非常广泛,包括简体单字、繁体单字、中文词组、汉语拼音、英文字母、阿拉伯数字、常用符号和联机文本行等手写数据。该数据库已完成了由190多人书写的完整的数据,字符总数超过3,600,000个。同时,该数据库是第一款公开的拥有大词汇量,高频中文词组和汉语拼音的联机中文手写体数据库,它为联机手写中文词组识别和手写拼音识别等研究领域提供了基础的数据。另外,我们还通过网络采集了大量真实的手写文字样本,总人数超过20万人次,而手写样本超过150,000,000个。这对中文手写识别的研究提供了有力的帮助。3.针对目前提出的增量的修正二次判决函数(Incremental Modified QuadraticDiscriminant Fuction, IMQDF)方法需要巨大的参数存储量,同时会降低对于普通用户书写的识别率的问题,本文提出了一种平滑压缩的IMQDF算法。这种平滑压缩算法可以大幅降低IMQDF算法所需的参数存储量,仅为原存储量的1/50,同时还可以相对提高对于该特定用户和其他普通用户的书写识别率。同时,本文还提出了一种基于特征子空间的IMQDF算法,这种算法可以快速的将MQDF分类器变换到新的子空间中,大大的降低了运算时间。4.针对目前许多先进的手写识别算法由于其运算复杂,存储量大等原因,无法在电子设备中应用的问题,本文提出并设计了一种基于云计算平台的手写识别系统。由于云服务器端的强大的计算能力以及足够大的存储空间,更加精确的手写分类器以及用户书写自适应系统等许多先进的手写识别算法得以应用其中。因此不仅可以提高普通用户的识别率,还可以使特定用户获得“越写越准”的用户体验。总之,基于大规模无约束手写数据的书写者自适应的中文手写识别技术的研究是一个涉及手写文字识别、机器学习、图像处理和增量学习等多个领域的综合研究项目。通过对特定用户的书写风格的增量学习,可以大大提高对该用户的书写样本的识别率,同时可以不降低对于其他普通用户的识别率,这可以让所有用户获得更人性化的用户体验。这些特点都说明用户自适应的中文手写识别技术将是中文手写识别的一个重要的发展方向。