基于深度学习的场景文字检测与识别

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:cocomalully
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字检测与识别一直是计算机视觉以及图像处理的重要研究方向,场景文字,也即自然场景图片中的文字,对其进行检测与识别更是当下的研究热点,场景文字的检测与识别具有巨大的研究和应用价值,它对于图像中所包含的高级语义信息有很好的研究。在实际生活场景中,场景文字检测和识别技术有着很广泛的应用,如自动驾驶、车牌识别、智能导航、无人超市等。场景文字检测与识别的研究已经进行了多年,并且取得了大量的研究成果。但是自然场景下的文字受到其背景、尺度、字体、文本框形状、方向、图片质量等方面的影响,对场景文字检测与识别带来一定的困难。直至今日,具有不规则形状的场景文字检测与识别以及文本紧邻的场景文字检测与识别依旧是研究的热点难题。近年来,深度学习和神经网络在计算机视觉、图像处理等领域取得了巨大的成功,本文基于深度学习分别对场景文字检测工作和识别工作进行研究,论文中主要的工作内容如下:1.检测网络首先对场景文字图片进行预处理,对图像进行增强和降噪。预处理的作用是使网络能够更好地对图片的特征进行提取,以助后续的检测。2.检测网络使用基于FPN结构的残差网络对图像的特征进行提取融合,然后通过多个卷积层进行分类得到了多个不同大小同一文本的预测结果,将最小的预测结果逐步扩大至最大的预测结果,这样能够很好地分割相邻文本实例,并最终得到图片中文本的检测结果。3.识别网络对不规则的场景文本进行了矫正,首先定位文本的控制点,再通过计算像素点间的TPS参数变换,找到矫正图片中的像素点坐标位置在原图片对应的像素点位置,最后生成矫正后的图像。4.识别网络使用序列到序列模型作为基础,先使用深层的残差网络提取图片的特征并将特征转换为序列,通过BiLSTM对提取到的特征序列进行编码,最后使用基于attention机制的双向LSTM解码器输出得到最终的识别结果。本文分别对场景文字检测和识别构建网络,并通过实验分析证明了两个网络性能的优异性。
其他文献
当前我国中小学美术课程改革极为重视地方特色美术课程资源的开发与利用。笔者所从教的包钢八中,学生一半是蒙古族,课程教学汉化比较严重,蒙古族特色文化没有得到应有的重视,
低油价下受油公司业绩下滑影响,全球石油工程市场规模大幅下降,油服公司收入和利润锐减。为战寒冬、谋发展,西方油服公司纷纷调整发展战略,优化业务结构。具体策略包括压低服
果胶是植物初生细胞壁的主要成分,同时也是花粉壁和花粉管壁的主要成分。果胶在维持细胞结构的完整性、细胞之间的连接以及防御反应的调控等方面发挥着重要作用。果胶的合成
文字是人们进行交流的主要方式,使计算机能够识别图像中的文字内容和让计算机生成包含文字内容的图像一直是科研人员研究的技术之一。同时进行精准的自然场景文字图像识别与
<正>4月12日,河南平顶山尼龙化工新材料产业集聚区尼龙科技公司投资2.2亿元的7万吨/年尼龙6切片项目进行投料试生产。而在不久前,其与佛山华博润材料科技有限公司已成功签约
目的:观察应用血府逐瘀汤联合激光治疗视网膜静脉周围炎的临床疗效。方法:将83例(150眼)视网膜静脉周围炎患者随机分为对照组(38例69眼)和治疗组(45例81眼),对照组采用激光光
目的利用CBCT探讨上颌单次快速扩弓前牵及上颌反复快速扩缩前牵后上颌骨周围骨缝变化机制,并运用该变化评价上颌反复扩缩前牵是否更有利于上颌前移,从而为临床治疗提供参考。
<正>依山傍水的吊脚楼,清幽峻奇的峡谷风光,引人入胜的灵巫洞,扑朔迷离的白果原始森林。我国南方最大的高山草场——红池坝,天下奇观——"夏冰洞"、"白龙过江",千古之谜——"
期刊
诉访分离改革是司法体制改革的必然趋势。然而,"案件执行难、终结不畅、非法上访"等难题仍是改革的拦路虎。研究表明:基层诉访分离改革的成效不能完全以信访人满意度来评价,
背景:随着我国社会经济水平的不断提高,由糖尿病肾病(DN)导致的慢性肾功能不全(CRF)及终末期肾脏病(ESRD)的人群越来越多,因糖尿病肾病致病机制的复杂,目前尚无有效治疗手段