论文部分内容阅读
近年以来,随着计算机技术的不断发展,相关领域的应用也越来越普及,字符识别技术就是其一。字符、数字识别技术越来越引起人们的重视,研究力度不断增大。与此同时,字符识别技术需求日益上升,这也赋予了对字符识别技术研究的意义。字符识别技术已日趋成熟,一些应用领域已有一些实践。但在工程图纸这一领域的应用还比较空白,相关技术的完善度仍有欠缺。本文即是对工程图纸中字符识别技术进行的研究与实践的总结,希望能对相关人士有所帮助。本文选题来源于长春客车厂与吉林大学合作开发的“轻轨工程图纸中字符的智能识别的研究与应用”项目,以电脑自动识别工程图纸中的字符代替人为识别录入。因为现实工程中,图纸的数量巨大,内容繁杂,若人为识别录入所需工作量很大,成本较高,而且十分枯燥,容易出错。所以以计算机智能识别代替人工识别有着很重大的意义。项目中改进了数字与字母的特征提取算法,由于字符与数字在外形上具有相似度,本文针对此进行了算法实现与改进。同时也为了解决相似字符之间的误识率进行了算法实现与改进。还有许多其它问题,不在此一一列举。本文主要工作包括以下几个方面。首先要对图像进行一系列的前期处理,前期处理就是借助一些技术对图像进行先一步的处理,以便后续操作的进行,主要包括以下几个方面。灰度化,把三通道的图片转变成单通道图片,用于缩减图片原始数据量,便于后续对图像的处理。二值化,图像二值化的作用是为了方便提取图像中的信息,二值图像在进行计算机识别时可以增加识别效率,这对于增加识别率,后续处理排除噪点,降低误识率都有着重大的意义。前期处理结束后,就可以开始对相关字符进行识别。字符识别方法主要分为模式识别、特征提取、神经网络三个方面,本文主要涉及模式识别及特征提取这两者,核心识别算法为模板匹配。工程图纸中的字符识别有其自己的特点。工程图纸数量大,因为图纸可能是在不同时间段完成,出自不同人手中,标准不同一,这就造成了对一部分图纸的识别方法可能不适用于另一部分图纸。工程图纸每一张的内容多较为复杂,噪点比较多,如何有效去除噪点提高识别率,降低误识率也是一个很需要重视的问题。正因为图纸内容多,原始数据量随之就变得比较大,所以在识别工程图纸中的字符时也应该注意算法的时间复杂度等相关问题。本文会对项目中遇到的问题及解决方法一一进行总结,研究成果和方法已经过实际项目检验。效果很好。