论文部分内容阅读
传统的信息录入方式是采用人工方式先填写相关表格中信息,再由内部工作人员按照表格内容把关键信息存入计算机,或者是,到指定地点进行证件的扫描上传。前一种方式虽然不限制信息录入的地点,但每一次信息的录入都需要耗费大量的人力物力资源,并且容易出现错误的输入。后一种,虽然在信息录入的效率和准确率上都有提高,但是使用地点却相对固定。移动智能终端的出现,使随时随地进行证件信息的录入成为可能。移动智能终端上的信息识别系统可以广泛的应用于服务性行业、交通系统、公安系统等需要对证件信息进行查验的部分,无需大量人员即可完成证件信息的采集查验,提高采集查验工作中证件信息识别的效率和准确率,具有广阔的应用前景。如何对不同证件中的文字信息进行良好的提取和识别,是开发证件信息识别系统的关键问题。识别一个证件图像的关键信息,首要任务是对其关键信息进行正确提取。本文针对不同证件,设计了不同的图像预处理方法,以确保证件信息能正确提取。本文采用一种字符笔画宽度逼近的二值化方法,对图像进行二值化,减少图像中背景、污点、反光等造成的影响,有效提升信息的识别率。本文在信息识别方面根据不同字符特点,采用了两种目前较为流行的方法对文字进行识别。针对英文数字,本文采用Tesseract-OCR引擎进行识别。英文数字字符结构简单,类别较少,使用Tesseract引擎的识别率已满足本文系统需要,且生成的字符集体积小,满足移动智能终端的使用要求。针对中文汉字,汉字结构复杂且种类众多,使用Tesseract引擎识别率不高,且生成语言体积较大,本文使用一种基于特征提取和卷积神经网络的汉字识别方法,将传统特征提取方法与神经网络结合,弥补了单独使用神经网络训练的过程中丢失的特征信息,并在其每一层使用Dropout技术,有效预防神经网络在训练过程中的过拟合现象,提高最终模型对于文字的识别性能。该方法提升了文字的识别率,且生成模型较小,文字识别速度较快,便于移植到移动智能终端。本文针对以上需求,开发了一款移动智能终端的证件信息识别系统,目前主要支持识别身份证正反面以及行驶证。该系统分为安卓版本和iOS版本,支持市面上绝大多数手机。该系统能成功识别证件上的英文、数字、中文,英文数字识别率在98.4%左右,身份证号码识别率达到99.2%左右,中文识别率达到98.27%左右,证件整体识别率大约为90%。