论文部分内容阅读
朝鲜文是一种由辅音和元音基本字母构成的文字,它跟汉字有很多相似之处,因此汉字识别中用到的一些理论也可以应用到朝鲜文识别中。朝鲜文根据元音字母类型和后辅音的有无可以分为6种结构,理论上可以组成11000多个文字。朝鲜文中普遍存在相似字,这个特点严重阻碍了朝鲜文识别技术的发展。为了减少识别文字的复杂度,本文提出了一种基于字母的识别方法。本文在粗分类候选字的基础上,利用背景细化方法分离出构成文字的基本字母,然后提取两层外围距离特征,通过神经网络和结构分析识别字母,并根据候选字的实际情况以及朝鲜文的组成特点,对朝鲜文细分类进行了研究。另外,在现有的朝鲜文单词统计表的基础上,对识别后处理进行了实验,并取得了比较好的效果。下面列出了本文的主要工作:
(一)分析朝鲜文文字结构特点,利用垂直方向、水平方向投影直方图法确定背景细化区域,通过对这些背景区域进行细化处理,得到字母之间的分割线并分离出了每个字母。
(二)从分离出的字母提取两层外围距离特征,以这些特征向量为输入建立了三层即神经网络。然后利用神经网络和结构特点识别字母,分析现有的印刷体朝鲜文识别系统给出的候选字组来判决识别文字,对经常用到的4种印刷体朝鲜文相似字候选组进行了识别研究。
(三)初步地建立了一种识别后处理系统。利用双方向搜索方法,从朝鲜文单词统计表中检索主体词和附加词,并把句子中识别错误的单词修正过来,对识别系统有一定的改善作用。