Tesseract-OCR的文档扫描识别系统

来源 :电子世界 | 被引量 : 0次 | 上传用户:xuxuwanju
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高速信息化的时代,针对海量文档数据处理效率低下的问题,提出了一种基于OCR技术的识别系统,首先利用OpenCV对文档数据进行预处理滤波,边缘计算,灰度化等一系列预处理,然后使用Canny算子找到图片边缘信息后应用一个透视的转换去获取一个文档的自顶向下的正图,最后完成了一个基于Tesseract-OCR的文档扫描识别项目,该实验表明此方法具有准确的识别率,提供多种语言开发调用,以及具备高可用性;可以有效提升数据录入的效率,大大减轻人工的消耗。
其他文献
车辆特征识别算法中车牌定位的研究是近几年来研究的重要内容,但是受光照不均匀、车牌倾斜等的影响,使其在市场上应用通用性不强,因此对车辆特征识别系统进行继续性研究能够带来重大的应用价值。本文使用了当今人工智能领域最主流的卷积神经网络算法对车辆进行检测,并且进行车牌定位,结合百度公司的深度学习开发平台Easy DL服务器进行远程训练后生成H5页面,可以通过扫码实现车辆位置检测和车牌定位,分别标注为Car
期刊
对于高频RFID读写器,传统的功耗优化方法往往是选用低功耗芯片或者使MCU进入低功耗模式,功耗优化方法较为单一。本文提出一种系统级的功耗优化方法,在芯片选型、电源管理、阻抗匹配以及软件设计等方面优化功耗,系统选用低功耗MSP430F2272单片机,利用BQ24070芯片给出一套完整的电源管理方案,阻抗匹配结合实际经验提高了功率利用效率,软件设计方面采用动态电压响应和指令优化来降低整体功耗。
期刊
视频智能分析在传统工业的安全生产监测领域有着很大的发展空间与应用潜力。随着监控视频数据量飞速增长以及视频分析算法模型精度要求越来越高,视频分析系统的低延迟和高并发成为了一个重要的挑战。本文采用Spark、Kafka、HDFS、HBase、Opencv和Yolov5等技术栈构建了一个海量视频数据分析平台,基于此平台可以实现对海量视频数据进行实时流计算。
期刊
在交通车辆违章行为图像检测和识别的基础上,通过收集可以判定车辆违章行为的各个要素,找出每个要素之间的关系并建立上下文模型,进而实现车辆违章行为检测。通过Hough变换对车道线进行检测,利用背景差分法检测目标车辆,然后建立用于违章行为检测的上下文模型,将上下文信息分为时序上下文,场景上下文,目标上下文以及参数上下文。通过引入上下文信息,提高了车辆违章行为检测的准确率,减少了对车辆违章行为的误判与错判
期刊
军用电子元器件是电子武器装备的基础组成单元,其质量与可靠性水平直接影响装备技术、功能的实现,因此针对电子元器件的质量控制必须引起足够重视。工作实践发现,故障电子元器件在表面或多或少存在瑕疵表征,因此作为元器件检测筛选的首要环节,电子元器件的表面检测是发现故障元器件的重要步骤。本文基于图像处理技术设计了一种自动识别电子元器件表面瑕疵的方法,实现快速、精准检测。
期刊
10月15日上午,2021中国物联网大会在江苏无锡顺利开幕,中国电子学会理事长、工业和信息化部原总工程师张峰出席开幕式,无锡市委副书记、代市长赵建军,中国电子学会副理事长兼秘书长陈英,中国通信学会副理事长兼秘书长张延川,中国科学院院士尹浩致辞。两院院士许居衍、柴天佑、吴培亨、于全、尹浩、何友、王怀民、沈学民、苏东林等专家领衔参会,无锡市人大常委会主任徐一平、无锡市委组织部部长柏长岭、无锡市政府秘书
期刊
随着现代信息技术和人工智能的快速发展,我们生活中的方方面面都变得越来越数字化、信息化、智能化。学校教室出现了各种各样的多媒体教学设备,教学方式的数字化、信息化、智能化越来越明显,然而教师对学生在课堂上的教学评估却始终依赖于教师本人的主观判断,缺乏一定的可信度。因此利用现代信息技术和人工智能技术,来保证课堂评估的可信度,提高课堂评估的效率,保障整个教学过程的规范化和科学化,成为一个迫切需要解决的问题
期刊
随着信息技术的发展,以资源库建设为依托的信息化教学方式成为职业院校教学发展方向。通过资源库建设有利于实现教学资源的共建共享,在节省教学成本的前提下促进教学效果的提升,为职业教学创造良好条件。本文在介绍高职院校教学资源库建设背景、建设现状和意义的基础上,以物联网应用技术专业资源库建设为例,探讨资源库建设机制、建设内容、建设成效等,为其他相关专业教学资源库共建共享提供有益借鉴。
期刊
医学图像是疾病诊断的重要依据,医学图像分割通常是由医学专家手动完成,耗时长,分割准确程度受主观因素影响较大,非常依赖医生的经验。日益增加的阅片量,迫切需要一种自动分割方法来缓解医生的图像分割压力。传统的图像分割方法是根据图像灰度值的突变进行图像分割,或根据预定义的规则进行分割,这种分割算法计算速度快,不需要标注数据,对样本数量无要求,是一种非监督分割方法。但是大部分的算法对图像中的噪声比较敏感,如
期刊
在现代医学中,视盘的定位与分割对眼睛疾病诊断有很大的作用。针对现有算法存在的受噪声影响大、分割精度不高等问题,本文提出将霍夫变换和Snake模型结合的方法实现视盘的定位和分割:对原图像,选取红色通道和绿色通道,并用高斯滤波降噪;然后用Canny边缘检测算法检测视盘轮廓;再使用霍夫变换定位视盘;最后使用Snake模型分割视盘。本文在MESSIDOR数据集上进行算法验证,算法的平均重叠率为79.9%。
期刊