基于Tesseract-OCR的名片识别系统的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:my163mail12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展,使用手机上网、聊天甚至工作正逐渐成为我们日常生活中的一部分。同时,手机也可以解决很多工作、生活中的常见问题,名片的管理就是其中的一个很好的方面。交换名片是商务交往中的一个重要环节,而如何管理收到的大量名片却缺少高效的方法。利用ocr(光学字符识别)技术识别名片信息,只需要拍一张名片图片就能够快速的将名片电子化,进而保存到通讯录中,可以方便地实现名片管理。依托于开源的字符识别引擎tesseract,本文旨在实现一个满足基本的名片识别需求,源代码开放,稳定、快捷的名片识别api系统,为中小企业开展名片管理相关业务提供基础服务。本文详细阐述了该名片识别系统的设计及实现,介绍了该系统的设计目标及实现方法。该系统的web服务器使用高效的tornado&nginx架构,能够提供一个快速响应的请求接口。在识别字符之前,先将名片图片进行预处理,消除名片图片上各项干扰因素的影响,以提高后续字符识别的效果。本文使用了开源的tesseract-ocr引擎识别名片上的字符,为了提高对中英文混排的字符的识别正确率,利用其自带的字符库训练方法进行相关字符库训练,取得了良好的识别效果。对于识别出来的字符,本文分析了名片上的各种关键字类别,通过一种混合的信息分类方法将字符块分类,构成符合语义的名片信息,最终使用一种手机能够直接识别的电子名片格式返回给请求用户。本文中所做的研究努力已实际部署在阿里云服务器上,进过多次运行测试之后,获得了良好的使用效果。
其他文献
本文以一种新型的三点式磁悬浮转向架为研究对象,该转向架拟用于本课题组正在研制的磁悬浮移动人行道系统中。文中介绍了该新型磁悬浮转向架的结构,通过理论分析确定了在新型转
在遥感技术应用越来越广泛的背景下,市场上成熟的通用卫星遥感图像处理软件往往会有如下不足:可扩展性差,对软硬件配置要求高。这并不能完全满足各行各业不同的遥感影像处理的特
民族地区的法治现代化是实现伟大中国梦的制度保障的重要一环,也是建设社会主义法治国家,构建社会主义和谐民族关系的重要基础。民族地区法治化作为我国法治建设的重要组成部分
近年来,随着造纸湿部抄造体系由酸性向中/碱性的转变、纸机高速化大型化的发展以及白水封闭循环程度的日益提高,造纸工业对湿部体系的留着、滤水和成形有了新的更高的要求,进而
伴随着城市化进程的加快,水资源短缺、水环境污染成为许多城市可持续发展面临的主要问题。雨水资源作为自然界水循环系统的重要环节,是重要的自然资源和战略资源。居住区在城市
从“五四”新文学起源,到三十年代的革命文学,再到抗日战争时期,形形色色的基督徒不断涌现在中国小说中。这些人物姿态万千,性格迥异,是中国现代文学的重要组成部分。本文试
遥感图像是各种传感器获取信息的产物,提供了探测对象丰富的光谱信息和空间信息,已被广泛地应用于民用和军事领域。针对现有遥感图像处理方法的一些不足,研究适用于遥感图像特性
本文从影像技术在戏剧表演中的各种革新应用入手,结合自身多年戏剧影像创作经验,对影像在戏剧表演中的多种使用方法进行了简要概述,对国内外当下的戏剧影像理念进行了归类和总结
全球化的发展、城市化进程的加快,给人类带来了物质文明的繁荣,同时在经济发展与生态环境之间也产生了激烈的矛盾。主要体现在生态环境遭到破坏、自然资源过度开发、历史文化