论文部分内容阅读
随着计算机科学技术的不断成熟,光学字符识别已经成为了模式识别领域的重要研究内容,而阿拉伯文字及以阿拉伯字母为基础的维吾尔文字识别技术研究由于使用地域有限以及字符形态结构和书写形式比较特殊的原因研究进展相对滞后。本文在对维吾尔文字的结构特点和识别难点进行详细分析的基础上主要研究识别中的以下内容,维吾尔文字区域提取,维吾尔字符特征提取,维吾尔字符识别分类器设计,最终构建了一个维吾尔文字识别演示系统,具体内容如下:(1)在文字区域检测及提取过程中,首先对原始图像进行二值化和降噪处理,寻找二值图像骨架点并聚类骨架点;然后平滑灰度图像并统计灰度波峰,根据峰值个数对骨架点邻域进行区域生长;最后剔除噪声,提取文字区域,对提取出的文字图像进行字符切分并归一化,为特征提取做准备。(2)在特征提取部分,本文分别提取主笔画和附属笔画两部分特征。针对主笔画主要提取像素点分布特征、网格密度特征、环形空洞特征及投影形态特征。针对附属笔画提取四方向radon变换特征、附属笔画数特征、附属笔画与主笔画位置关系特征以及多个附属笔画位置关系特征。(3)在分类器设计方面,在将主笔画和附属笔画进行分割并分别提取特征的基础上,分别将主笔画网格密度特征和附属笔画四方向radon变换特征输入BP神经网络分类器进行初步识别。针对主笔画由于形似出现的误识别情况,将环形空洞特征和投影形态特征组成特征校正向量来比对识别结果和测试图像的局部结构是否一致。针对多个附属笔画,及其中包含多个相同附属笔画的情况,提出一种主笔画和附属笔画多级组合分类机制,通过判断每个附属笔画和主笔画的位置关系及多个附属笔画之间的位置关系,确定该字符的所有附属笔画的组合形式,再将组合结果与主笔画识别结果结合分析,得出最终识别结果。(4)创建了一个维吾尔文字识别演示系统,为后续的研究提供了基础。