论文部分内容阅读
中文字符识别是模式识别领域中极具有挑战性的难题之一。目前,印刷汉字识别和联机手写汉字识别已逐步实用化,而脱机手写汉字识别因其自身的复杂性被视为汉字识别领域“最后一座城堡”。最新发布的文本行级中文手写库HIT-MW使得这一领域重新成为热点,HIT-MW库首次关注真实手写环境下的文本识别。本文将中文手写字符串作为研究对象,首先搭建一个基于切分策略的中文手写字符串识别平台,在此平台上进行切分-识别集成框架下的字符串识别,然后采用字符串级别训练更新嵌入的字符分类器,进而采用扰动模型合成中文字符串样本扩展字符串级别训练的样本集,以期提高真实手写环境下的中文字符串的识别性能。字符串切分-识别集成框架的基本过程是:首先对输入的字符串图像进行过切分,并合并连续切分块组成切分-候选模式网格;然后采用嵌入的字符分类器分类候选模式网格中的所有字符模式,形成切分-识别网格;最后根据一定的路径评价函数寻找切分-识别网格中的最优路径。本文在字符串级别重新训练嵌入平台的字符分类器,训练过程中以MCE准则为目标,采用随机梯度下降在字符串样本集上逐步更新字符级别训练得到的分类器参数。实验表明,字符串级别训练能减少识别过程中的插入错误率,在一定程度上提高了中文手写字符串的识别性能。字符串级别训练采用的样本集存在着严重的样本不足问题。为此,本文提出两种合成中文字符串样本的扰动模型,一是直接在自然文本行上施加文本行级别或连通部件级别的几何变换;二是先对自然样本中的单字字符进行几何变换,然后根据自然样本相邻字符的间隔连接扰动后的单字字符构成新的字符串样本。本文采用这两种扰动模型合成足够的字符串样本,用于扩展字符串级别训练的样本集。实验表明,合成样本不论是在本文的基于切分策略的平台上,还是在基于无切分策略的HMM系统上均能提高中文手写字符串的识别性能。