论文部分内容阅读
随着移动互联网的快速发展,使用手机上网、聊天甚至工作正逐渐成为我们日常生活中的一部分。同时,手机也可以解决很多工作、生活中的常见问题,名片的管理就是其中的一个很好的方面。交换名片是商务交往中的一个重要环节,而如何管理收到的大量名片却缺少高效的方法。利用ocr(光学字符识别)技术识别名片信息,只需要拍一张名片图片就能够快速的将名片电子化,进而保存到通讯录中,可以方便地实现名片管理。依托于开源的字符识别引擎tesseract,本文旨在实现一个满足基本的名片识别需求,源代码开放,稳定、快捷的名片识别api系统,为中小企业开展名片管理相关业务提供基础服务。本文详细阐述了该名片识别系统的设计及实现,介绍了该系统的设计目标及实现方法。该系统的web服务器使用高效的tornado&nginx架构,能够提供一个快速响应的请求接口。在识别字符之前,先将名片图片进行预处理,消除名片图片上各项干扰因素的影响,以提高后续字符识别的效果。本文使用了开源的tesseract-ocr引擎识别名片上的字符,为了提高对中英文混排的字符的识别正确率,利用其自带的字符库训练方法进行相关字符库训练,取得了良好的识别效果。对于识别出来的字符,本文分析了名片上的各种关键字类别,通过一种混合的信息分类方法将字符块分类,构成符合语义的名片信息,最终使用一种手机能够直接识别的电子名片格式返回给请求用户。本文中所做的研究努力已实际部署在阿里云服务器上,进过多次运行测试之后,获得了良好的使用效果。