论文部分内容阅读
英、汉文字识别研究较早,经过许多学者的不懈努力,中英文识别在技术方面累积了丰富的成果,并开发出许多商业化产品,识别率达到了99%以上。藏文识别方面由于藏文信息化建设较晚,直到信息化高速发展的今天,还处于起步阶段。而且藏文与中英文存在很大的差异,不能完全借鉴中英文识别中的成熟技术,需要依据藏文自身的特点,研究和设计出适合藏文的识别系统。藏文是一种非常古老的文字,记载着藏民族独有的文化,是全世界文化宝库中的重要组成部分。随着信息化时代的到来,为了让藏文能更有效地进行传播、查阅和交换,必须用数字化方式来整理和保存。所以藏文识别技术是解决这一问题的一种理想而有效的手段,可减少大量人力和财力的投入,而且藏文识别技术的发展,能推进民族文化、教育、经济的发展。具有非常重要的意义。根据上述问题,本课题深入研究了文字识别系统中的关键技术以及藏文字符的结构特征。重点研究内容放在藏文字丁的切分和分类识别上。提出了基于多策略的细化切分方法和基于二级分类器的识别方法。完成的主要工作具体如下:1.图像预处理。将图像预处理过程分为图像灰度化、二值化、除噪、倾斜矫正四个步骤。其主要目的就是尽可能地去除印刷体藏文文档图像的无用信息,使图像中的文字信息更容易检测。本系统图像预处理过程主要采用文字识别系统中常用的预处理方式,并取得了较好的效果。2.印刷体藏文文档图像中藏文字丁的切分。藏文字丁的切分过程分为行切分和字丁切分。首先将图像中的每个文本行切分出来,然后把每行中的藏文字丁切分出来。由于藏文字丁宽高不等,图像中会出现不同程度的重叠粘连问题。针对该问题提出了基于多策略的细化切分方法,对重叠粘连段该方法具有较好的切分效果。3.特征提取。特征提取对于印刷体藏文识别系统来说是一个非常重要的步骤,是实现文字识别的核心及难点。其主要目的就是提取出反映藏文字丁本质的特征序列,通过已提取的特征序列使计算机具备识别藏文文本的能力。根据藏文字符的字形和结构特征,提出了一种藏文字符混合特征的提取方法,其特征主要包括基线特征、封闭区域数特征和粗网格特征。4.分类识别。提取特征后,下一步就是与特征库进行分类匹配,最终达到识别效果。在识别过程中分类器的设计是很关键的问题。分类器的好坏直接影响识别的准确率。所以设计了基于藏文混合特征的二级分类器。该分类器可以弥补小维度特征和大维度特征之间的缺陷,在识别过程中提高了速度和精确度。最后通过实验测试,本课题开发的印刷体藏文识别系统具有较好的识别效果,识别率达到了83.24%,但与此同时,还有一些模块功能需要进一步完善和提高。