基于深度学习的文本检测与识别技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:nail_dingding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年随着社交网络的发展,处理日益增长的各种视觉信息已经成为了一个无法避免的需求。在这些视觉信息中有很多是复杂场景下的图片,如招牌图片、商铺图片、交通标志等自然场景下的图片,也有试卷、报纸等印刷体的图片。复杂场景下的图片由于背景复杂、字体多样、语种未知、版面格式不统一、光照等因素影响,文本检测与识别的难度大大增加。但理解复杂场景中的文本信息对于人机交互、自动驾驶、增强现实等都有很多现实意义。本课题是对不同的文本检测与识别技术进行研究,分别是传统OCR的多阶段的文本检测与识别技术和端到端的文本检测与识别技术,然后针对两种各有优缺点的技术分别应用于两个不同的复杂场景,两个应用场景具体为多学科试卷图文混排的场景和自然场景中语种未知的场景。将传统OCR的多阶段的文本检测与识别技术应用于多学科试卷图文混排的复杂场景下,关键在于多粒度的版面分析。该系统是按照传统的OCR方法步骤来进行的,按照文本检测、文本分割、字符识别三个步骤依次进行。首先采用均值滤波和Hough变换来对图像进行预处理,然后使用Faster RCNN算法来进行粗粒度分类。接着使用Mask RCNN算法来进行小题的细粒度分类。最后只需要识别公式与中文两种字符,依照不同类型分别调用现有的识别API。本系统对于多学科试卷的复杂版面都有通用性,而且对于试卷中的题号、题型信息都进行了分析,后续可直接生成相应的试卷结构。试卷中印刷体中文的识别率为99%,达到了实用标准。将端到端的文本检测与识别应用于自然场景中语种未知的复杂场景下,关键在于多语种的文本。该系统是将文本检测、文本识别放入到一个统一的框架下处理,之后再进行语种的判定。该系统采用了FPN作为整个端到端系统的骨干,通过FPN构建检测器。采用locality-aware NMS来删除高度冗余的候选框,将筛选出的候选框用于估计空间转换层的参数,并利用空间变换器来标准化图像以进行缩放和旋转,之后便输入全卷积的识别模块来输出最终的识别结果。系统的文本检测的AP为52.67%,端到端的文本识别的N.E.D为0.3190,语种判定的AP为25.41%。
其他文献
阐明了在“双语物理导论”课程7年11轮的教学实践中所提出的对研究型、互动型课程教学模式改革的教学理念、教材运用、教学方式等新观念,反映出对大学低年级学生培养其自主学
目的:研究丹皮酚对脂多糖诱导的抑郁症肝气郁证的小鼠模型和原代细胞模型中TLR4-NF-κB信号通路的作用,以验证肝疏泄失常炎症机制假说。方法:1.利用米诺环素(50mg/kg)、氟西
研究和开发了一种嗜酸乳杆菌发酵乳饮料。对嗜酸乳杆菌单菌发酵和与保加利亚乳杆菌、嗜热链球菌的混菌发酵工艺进行了研究,确定了最佳混合菌种组合比为2:1:1。同时对工艺条件及
利用机械系统动力学仿真分析软件MSC.ADAMS建立某车型的前悬架模型,进行运动仿真分析。根据分析结果优化调整悬架结构尺寸,并对调整结果进行评价。实现了在汽车设计阶段对悬架性
目的:探索"山楂枸杞保健酸奶"(简称"SG酸奶")对大、小鼠降血脂和免疫调节的功能.方法:将大、小鼠分别建立动物病理模型组、SG酸奶组和普通酸奶组,测定其各组动物的血脂(TC、TG、LDL-C
介绍了氮氧化物化学发光法性能指标,并给出确定性能指标检出限,准确度,精密度的方法。
说明了对心从动件偏心轮凸轮机构的基本组成、特点和应用,分别以3种不同的从动件进行了此类凸轮机构的运动分析。
本文通过查考历史文献及书学界对章草之名的由来及其含义的不同说法,以及对由此产生的不同观点进行分析考证,从而廓清了章草一体,其得名缘于今草的产生之后,世人为了区别作为古体
目的:研究化瘀通孕方对输卵管炎性阻塞性不孕症大鼠输卵管细胞间黏附分子-1(ICAM-1)表达及血流变学的影响,从分子生物学角度探讨化瘀通孕方的作用机制。方法:SPF级Wistar雌性
基于海绵城市源头-过程-末端的水环境提升理念,结合前海合作区现状建设及规划要求,将河道水质达标和面源污染控制(以TSS计)作为核心目标,构建以TMDL理论为核心的总量校核方法