论文部分内容阅读
机器的识别本领无法与人的认知能力相比,因此手写体的识别特别是离线的手写体识别对于模式识别等学科和理论来说,仍有较强的研究价值和意义。同时,手写体识别的研究,对于进一步提高低质量,变形大,复杂环境干扰条件下的文字识别的准确率;解决视频图像的文字检测和识别;文字的字体、签字和字迹的鉴别;手写阿拉伯文档等的识别以及各种图像识别技术和应用问题等,甚至对于相对更成熟的联机手写识别技术来说,都具有重要的借鉴和启发作用。由于阿拉伯手写文档具有它独有的特性,识别起来不能完全照搬现有的文字识别方法,它有着自身的特点和难点,导致现在越来越多的研究机构投入到离线手写体阿拉伯文字识别这项研究中来。国内外科技工作者己对该领域从不同的角度进行了广泛的研究,并且取得了许多阶段性的研究成果,但由于以下的原因,到目前为止,离线阿拉伯文字识别还没有商用的产品问世:1)风格:阿拉伯文本,包括手写体和印刷体实际上都是连接的。2)文本流:和拉丁语文本以及其它的语言不同,例如汉语,日语或者韩语,阿拉伯手稿是从右往左而不是从左往右的书写顺序,字母连在一起通常形成一条基线,但对于手写体来讲,基线只是一个想象的概念,实际书写中可能并不存在,这增加了识别的难度。3)字符的形态:阿拉伯语字母的形态取决于它在词中出现的位置。同一个字母在词首和词尾有着截然不同的形态,加之用点代表元音,这样字母表就达到了160个字符。还有一个问题是横笔延长经常出现在相连的字母中,这也导致了字母的形态的截然不同。4)词的形态:在阿拉伯语中,即使是相同的词,不同的书写者有着不同的书写风格,从而导致不同的词的形态。5)重叠:由于书写风格的原因,一个词中的字母经常重叠在一起,有时候有些人还将这些字母次序颠倒地写,这给分割技术带来了很大的困难。现有的离线阿拉伯文字识别系统的识别率及对测试数据集的有选择性等都有待改善,其效果与实际需要还有很大的距离。本文对离线阿拉伯文字识别方法从文本图像的采集、预处理、特征抽取、分类这样一个完整的文本图像的识别方法作了研究,评估了现有的相关算法,改进了有关的增强算法。具体完成的主要工作如下:①在阿拉伯手写体文本图像识别的预处理过程中使用两步线性回归法来进行基线检测。在对离线阿拉伯手写体文本识别的研究中,基线歪斜不同程度地出现在大多数自由书写的阿拉伯手写体文本中,我们提出的基线检测算法是基于两步线性回归法,首先找出该词在轮廓线上的局部最小点,然后用线性回归法在最小点上计算基线的近似值,再找出接近第一个近似值的那些点,最后用接近第一个近似值的那些点,使用第二次回归法修正这条线。另外,在手写体识别的研究中,文本的预处理有分割和不分割两种方法,而我们针对阿拉伯文本字符相连无法实现完整分割的特点,采取不分割的方法。②特征抽取方面。我们人能够通过大脑很简单地认识文字,是因为在人的大脑中已经保存了文字的特征,像文字的结构、笔划等。要想让计算机去认识文字,首先也要存储类似的信息,通常的做法是根据文字的笔划、特征点、投影信息、点的区域分布等进行分析,常用的特征抽取方法有结构分析方法和统计分析方法。在这篇论文中,结合阿拉伯手写体的特点,我们采用常见的GSC特征,结合主成分分析PCA来压缩特征的维数,以此描述阿拉伯手写体文本图像。③分类器的设计。目前的研究中一般是选择BP网络识别方法、SVM识别方法以及隐马尔可夫模型等,因为阿拉伯文本中字符相连的特点和语音识别的类似,所以我们研究隐马尔可夫模型应用在无分割的阿拉伯手写体文本图像识别中的参数设计和选择,采用经验值选取恰当的参数,优化算法,实现识别系统自动学习、自动选取、自动优化,并尝试使用多分类器的融合,提高文本的识别率。