自然场景图像中的文本检测与识别技术研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:smartdudu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中的文本含有丰富而准确的高层语义信息,这些语义信息对于盲人障碍导航系统、智能城市交通管理系统、汽车的无人驾驶系统、即时翻译系统都具有指导意义。因此,对自然场景图像中文本进行定位和识别具有极大的研究价值。本文针对自然场景下的文本定位与识别进行了深入研究,具体的工作如下:1.传统MSER算法对光照敏感且在单一的灰度通道上进行文本候选区域提取时会出现文本漏检情况。针对此问题,本文提出了一种基于多通道光照均衡化的MSER算法。首先,分别在R、G、B通道下对图片做光照均衡化处理;然后,在对应通道下用MSER检测算子提取文本字符的MSER区域;最后,合并每个通道的MSER区域作为字符候选区域。经过实验验证,改进后的算法针对光照不均匀或不同复杂背景上的图片,都能检测到相对完整的字符区域,提高了算法的召回率。2.传统MSER算法对于复杂背景的场景文本检测时会出现误检情况。针对此问题,本文提出一种基于多特征融合的伪字符区域过滤算法。首先,对字符候选区域分别提取HOG特征、LBP特征、CNN特征;然后,将这三种特征进行串形融合;最后,利用SVM训练一个字符判别器来过滤伪字符区域。经实验验证,此算法能剔除掉更多的伪字符区域,提高了算法的准确率。3.滑动卷积字符模型是基于字符分类的识别,只关注字符的深度特征,而忽略了文本行中字符与字符之间的上下文关系,这使得算法的识别精度会大打折扣。针对此问题,本文深入研究了滑动卷积字符模型,在其基础上引入双向LSTM网络来进行场景文本识别。首先,去掉滑动卷积字符模型中的分类层;然后,使用CNN滑动窗口来提取输入图像的序列特征,将输出的序列特征输入到设计好双向LSTM网络中提取每个字符的上下文特征;最后,用CTC转录机制将LSTM的输出预测转录为实际的字符串。通过与其它算法对比,本文算法在识别精度上有显著的提升。
其他文献
本研究探讨TgAb阳性(>115IU/mL)、TgAb阴性(10μg/L)率,绘制TgAb-Tg散点图,从而分析TgAb浓度与Tg测定值的相关性。结果显示:收集到252例DTC随访患者中,有47例TgAb阳性的DTC患
我国有2054万听力障碍人士,笔者通过问卷调查法和文献分析法就电视服务听障人士的节目类型、服务方式等进行了探讨。通过调查发现,电视在我国听障人士生活中占有重要地位,从新闻
针对公安传统应急预案为纯文本结构对公安指挥部门的可用性和可指导性不高的问题,本文基于JavaEE设计并实现了一个公安应急预案与辅助决策平台。平台前端采用BootStrap框架,
采用水凝胶为载体,负载磷酸盐制备成修复剂,并将水凝胶加入水泥净浆中制备成自修复水泥基材料。利用磷酸盐和裂缝中钙离子原位生成羟基磷灰石修复裂缝,并探究其修复效率。结
陆学艺先生在其生命的最后十年中不遗余力地从社会学角度思考中国社会的伟大变局。他尤其是从大社会系统变迁角度,认为中国现代化建设目前正处于第三次新的历史转折时期,社会
目的:探讨芎麻汤治疗偏头痛患者的临床疗效及其对血管内皮功能的影响。方法:将嘉兴市第二医院2017年3月至2018年3月收治的104例偏头痛患者采用随机双盲1∶1的方法分为观察组
聚两性电解质是指由带正电荷的单体和负电荷的单体无规共聚形成的一类聚合物。这类聚合物的分子链上同时含有正负电荷基团。通过聚两性电解质形成的超分子物理水凝胶(PA凝胶)
“意象”问题,孙宜生先生倾近二十年心血,精心呵护,刻意构筑起一座系统复杂的“意象大厦”。但这座“大厦”是允许旁人评头论足的。曹桂生先对孙先生的观点提出诘误码,是学术争鸣
随着煤矿自动化及信息化建设的持续,井下少人、甚至无人下井将成为煤矿生产未来的趋势,为了配合这一趋势,提升井下少人后的应急响应能力,提出一种煤矿应急救援指挥演练及管理
<正>随着课程改革的不断深化及立德树人教育职责的落实,数字时代下的语文学科在培养学生语言、思维、审美、文化等核心素养方面的作用显得日益突出。作为文选型特征的语文教