论文部分内容阅读
相比拉丁字母、汉字等文字,目前对自然草体文字如阿拉伯文、维吾尔文的手写识别研究相对较少。本文研究脱机和联机手写维吾尔文字识别方法,包括字符识别、字符分割和单词识别等几个关键性技术。针对维吾尔128类字符,提出基于部件分解和融合的手写字符识别算法。首先构建手写维吾尔部件库和字符的部件字典,将字符分解为主体、附加和点三类部件,并结合连笔分析获得较鲁棒性的部件描述;其次,针对各类部件的不同特点设计相应的特征抽取和分类器,通过部件匹配来检测和辨识相似字间的微小差异;为减轻手写字符拓扑变形造成的干扰,对联机部件提取一种统计特征即时分方向特征;最后,对多个部件的分类输出进行融合,获得字符识别结果。提出字符识别的多部件自适应融合策略。提出一种实时的融合系数计算方法,利用部件匹配测度分布来估计其权重,以实现部件的自适应融合。提出基于加权和、基于朴素贝叶斯模型、以及基于改进D-S证据理论的部件融合算法。对比实验证实,基于改进D-S证据理论的融合算法能够克服加权和融合鉴别能力较弱、以及贝叶斯融合对噪声过于敏感等缺点,有效提升了字符识别算法的识别率和稳定性。针对维吾尔词书写粘连和手写笔画漂移等问题,提出基于多信息加权融合路径寻优的字符分割算法。首先,提出基于主体切分和附加聚类的字段过分割算法,并通过字段模糊匹配获得鲁棒的字根序列描述;然后,建立匹配位置高斯模型来估算字段匹配信息,以抑制笔画漂移造成的干扰;最后,构建字符序列二阶Markov语言模型,并基于Bayes准则提出单词后验概率的多信息加权融合计算方法,综合字段匹配、字符识别和语义信息,对字段匹配及字根合并的路径进行寻优,以最佳分割路径得到字符分割结果。提出一个结合反馈结构和字段分析的手写维吾尔单词识别系统。为克服顺序结构中的错误累积问题,该系统构建反馈结构,通过对字段形态错误、字符识别错误和单词匹配错误三种反馈信息的估计和响应,来控制字符分割和单词识别的结果。首先,过分割单词图像得到主体和附加字段序列;其次,根据反馈信息设计字段合并策略,以获得最优的字符分割序列;然后,利用字符分割时所获取的结构信息,设计多级混合维吾尔字符分类算法,以提升字符识别准确性;最后,提出双层动态时间规整算法,通过字符序列匹配获得单词识别结果。