场景文字识别系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:skycliff520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这几年伴随深度学习和卷积神经网络的出现使得图像处理技术发展取得了质的飞跃,越来越多传统方法被基于深度学习的方法所替代,文字识别的方法就是其中之一。而针对自然场景的文字识别常常聚焦于特定领域,如车牌、街景等,自然场景的文本识别仍有许多应用性问题没有很好的解决方案。在真实文本场景中,中文字符的检测和识别性能常常受到背景光线、角度、数据集差异等影响,效果差强人意。本课题通过分析研究国内外文字识别技术研究现状和文字识别系统的弊端,在此基础上提出了一套基于深度学习技术的场景文字识别通用框架可提供自然场景下图片识别功能,并且为了解决常见OCR系统对卡证场景识别的缺失、每种识别系统只能识别单一种类证件等问题,在原有OCR技术的基础上,整合了通用证件的识别功能,包含身份证、银行卡、营业执照、和驾驶证,实现了多功能的场景文字识别系统。并提供开放API供功能扩展,文章最后以营业执照识别进行功能扩展,联通天眼查API提供扩展的企业信息核验功能,进行了开放能力的实现与验证。针对场景文字识别系统的设计与实现,本论文主要内容包括以下四个方面:1.提出了场景文字数据集的合成方法:通过对真实自然场景中的文档图像进行背景分析和要素提取,对背景纹理和光照角度等图像影响因素进行了模拟实现,合成了中文覆盖率高达99.7%的场景文字字符库,从而增加了整个检测识别流程中各个算法的泛化效果。2.提出了 IBN-CRNN的场景识别方法:改进目前先进的端到端可训练的不定长文字识别方法CRNN,引入IBN-Net结构有助于在不增加计算量的情况下,提升模型的准确性和泛化性,结合合成数据集,可以有效地在干扰背景中对图像文字进行准确识别。3.提出了基于VGG+CTPN+IBN-CRNN的场景文字检测与识别通用框架:利用CTPN适合检测水平文字的特性,引入了 VGG16算法对图像进行文本倾斜角度分类,实现图像矫正;结合合成的数据集与公开数据集丰富了检测任务、识别任务的数据训练样本。在提出的IBN-CRNN场景识别模型上利用上述扩充的样本数据进行训练,增强了 IBN-CRNN算法的泛化性和整个通用框架对中文场景的鲁棒性。4.设计并实现了场景文字识别系统:该系统基于场景文字检测与识别通用框架实现能力封装从而提供自然场景下高准确率的通用文字识别服务,系统还整合了常见的卡证图像识别功能,包括身份证、银行卡、营业执照、和驾驶证。该系统提供友好的编程接口可针对特定应用场景方便地扩展新的功能,还实现对营业执照结合天眼查API完成企业信息核验功能。系统提供交互友好的响应式Web界面供不同终端访问,支持图像上传和图像地址链接两种图像录入方式,还支持识别内容的一键复制与编辑。系统可在内网环境中部署以保证数据的安全。
其他文献
高强度聚焦超声(high-intensity focused ultrasound,HIFU)经颅治疗时,由于颅骨的非均质结构及其与周边组织的声阻抗差值大等,在颅骨处可能形成强反射波,导致驻波形成及能量损
古诗词的教学,贯穿于幼稚园、小学、初中、高中,甚至相应专业的本科、研究生阶段,仅从前四个阶段来看,学生学习古诗词有十几年,在时间上并不短,在重视度上亦可谓很高。但如此长时间的接触与教学,大部分学生到了高中阶段仍对古诗词的阅读鉴赏感到惶惑痛苦,在应试中倍感此题靠运气,原因竟是学生在“理解古诗词”的意思上有很大难度。不懂字的语境意,不明句中被修饰的对象,不晓句子间的前后关联,不通全文章法构思等因素,是
孝道传统是中华民族文化的精神内核,“孝”为诸德之首,教化之始,是个体品德的发端和行为的基本准则。初中阶段是青少年学生良好品德和行为习惯养成的重要时期,在“道德与法治”课中加强孝道文化教育有利于学生接受系统性、规范性的文化熏陶。初中“道德与法治”课是一门培育学生思想道德品质的综合性课程,通过结合孝道文化教育,能强化青少年道德修养,促进家庭和睦、社会和谐的构建。论文运用社会调查法、文献研究法、案例研究
随着时代变迁,不同的社会区域、不同的族群都会产生一定程度的变化。生活在大理仁里邑村落的白族亦是如此,在时间的嬗变之中,受到外来因素的影响其内部也在进行不断的自我调整与重组,尽管如此,作为民间信仰的本主崇拜却一直未消失过。仁里邑村所供奉本主为三堂本主,即意为有三位本主神灵,但三位本主的产生却并非同一时期,而是经历了一个“层累”的过程。本文主要以仁里邑村和才村龙凤村自然村为田野点,通过运用文献研究法和
学位
肠道病毒 71(Enterovirus 71,EV71)是手足口病(Hand,foot,and mouth disease,HFMD)的主要病原体,已成为威胁儿童健康的重要传染性疾病。目前,暂无有效的抗EV71病毒药物和疫苗
三峡工程是我国唯一通过全国人大审议决定的重大工程项目,现已全面建设完成,百万移民也已全面搬迁安置完成。2011年5月,国务院常务会议审议批准了《三峡后续工作规划》,为三
随着信息时代的来临,高速率高容量的通信系统的重要性逐渐显现,但以往的通信系统存在着容量受限和堵塞现象等问题,其性能受到极大的限制。由于涡旋光束携带的轨道角动量有可能成为自由空间光通信中新的自由度,有效的改善通信系统性能,因此国内外开展了大量的关于涡旋光束的产生、传输以及通信实验和理论研究,其在大气湍流中的传输特性也是研究的重点方向。涡旋光束在湍流环境传输时受到湍流旋涡的折射、散射等作用,会产生光束
目的:本研究旨在探讨miR-509-3-5p和PODXL在胃癌中的表达情况及其与临床病理特征的关系;应用体内、外实验研究miR-509-3-5p和PODXL在胃癌侵袭转移中的作用;应用分子生物学研
可调谐光纤激光器因相干性好,线宽窄,功率高,波长调谐范围灵活,并与光通信系统天然兼容性强的优异特性,已经成为当代光通信网络中不可或缺的重要激光光源模块和核心部件。目前针对不同新型结构和波段的可调谐单频光纤激光器是国内外研究热点之一。窄线宽可调谐单频光纤激光器的研究重点主要集中在设计新型可调谐机制和压缩线宽等方面,通常采用新型滤波结构、可饱和吸收体、新型腔体结构、超窄带滤波器以及光纤非线性效应等多种