论文部分内容阅读
随着我国经济的快速发展,印刷体文字识别技术的应用也越来越广泛,许多相关部门和企事业单位对印刷体文字识别技术提出了许多新的需求。特别是近年来,俄中口岸进出口量与日俱增,口岸需要处理的单据也随之增多,运用文字识别技术对这些单据进行自动处理无疑会加快口岸的运作,提高口岸运作的效率,但是,目前国内各研究机构对俄文字符识别的研究不是很多。针对这些情况,本文研究了印刷体俄文字符识别。本文讨论了印刷体俄文字符识别系统的预处理技术,研究了俄文字符特征提取的方法,并设计了俄文识别系统的分类器。本系统首先从扫描仪中获得待识别图片,提取图片中感兴趣的区域,并采用整体阈值与局部阈值相结合的思想,对各个不同的俄文识别区域分别采用固定阈值法进行二值化。使用均值法可变地选择行切分阈值,用水平投影法和阈值法相结合的方法对俄文识别区域进行行切分。再根据识别区域中俄文单词间距与字符间距差别很大的特点,采用垂直投影法切分出俄文单词。在切分出俄文单词的基础上,以单词为单位,使用垂直投影法和阈值法进一步切分出俄文字符。采用逐像素特征提取法提取俄文字符特征。本文使用BP神经网络作为分类器,设计了俄文识别系统中BP神经网络的结构,对BP神经网络进行了训练,使用BP神经网络完成了对俄文字符的识别。本文使用VC++实现了所设计的印刷体俄文识别系统。