面向屏幕渲染图像的文字检测与识别研究

来源 :武汉科技大学 | 被引量 : 1次 | 上传用户:sangsang126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
屏幕渲染文本图像上的文字识别,在自动化测试和在线词典等场景下有着极其广泛的应用。但是,由于屏幕渲染文本图像具有低分辨率、小字体和低对比度等特性,现有的文字识别方法在屏幕渲染文本图像上的中英文混合识别面临着极大的挑战。本文结合深度学习模型对屏幕渲染文本图像中的中英文混合识别问题展开相关研究。本文的工作主要包含以下两个方面:1)基于字符分割方法的屏幕渲染文本检测与识别针对屏幕渲染文本图像的特性,本文提出了一种基于HCCR-GoogLe Net的有分割文字识别方法。该方法首先使用OTSU二值化、膨胀、连通域检测、连通域融合和垂直投影法从屏幕渲染文本图像中提取出单个字符。然后使用字宽融合对误分割的字符进行校正。最后结合HCCR-GoogLeNet使用四个inception-V2模块设计了一个精简的GoogLe Net网络。在公开数据集CIFAR-10与ICDAR 2013和屏幕渲染文本图像数据集上的实验结果证明了该方法的性能和实用性。2)基于无分割端到端方法的屏幕渲染文本检测与识别在基于分割的识别方法中,会存在字符分割困难的问题。为了解决此问题,本文进一步提出了一种基于深度残差网络、循环神经网络和时间序列分类的无分割识别方法。该方法使用OTSU二值化、膨胀、连通域检测和连通域融合等方法从屏幕渲染文本图像中提取出文本行。为了使网络完成对不定长文本行的识别,该方法使用深度残差网络、循环神经网络和时间序列分类构造出了一个不定长文本行识别模型。在公开数据集CVL HDS和ORAND-CAR和屏幕渲染文本图像数据集上的实验结果证明了该方法的性能和实用性。本文结合深度学习模型,针对屏幕渲染文本图像的低分辨率、小字体和低对比度等特性,分别从有分割和无分割两个方向对屏幕渲染文本图像上的文字检测和识别进行了研究,实现了对传统方法的改进。提出的方法完善了屏幕渲染文本图像中的文字识别方法,并对自动化测试、在线词典和自然场景下的文字识别具有一定参考价值。
其他文献
作为最具活力的生产要素,人口对经济增长的作用不容小觑。在收获了长达三十年的人口红利之后,中国正面临老龄化时代的拐点,适龄劳动人口数量下降、社会养老负担加重成为经济
党的十六届六中全会提出要建设一支结构合理、素质优良的社会工作人才队伍的任务。要完成这一任务,就要开拓社会工作职业领域,并为此进行多方面的工作。在学术研究方面,我们
中国古典诗词的英译存在着局限性。全文主要从“三美”,即“音美、形美、意美”三个方面详细分析了古诗英译存在的局限性。同时指出古诗英译的可译限度是可变的,它随译者的主
要准确理解艺术歌曲,就需要采用比较的方法进行研究。日耳曼民族是理性思维的民族,在德奥艺术歌曲中,这种思维模式就蕴含其中。从文化的角度对德奥艺术歌曲和法国艺术歌曲进行比
由于辅导员工作的特殊性,他们的心理健康状况的好坏直接影响到大学生的心理健康水平的高低,影响到高校素质教育的进程。因此,了解我省高校辅导员的心理健康现状,探究提高辅导
<正>居家养老服务是指"由社区和社会帮助家庭为居家老人提供生活照料、医疗护理和精神慰藉等方面服务的一种社会化的养老服务形式"。然而,这一模式运行所蕴含的公平问题是不
目的:探讨不典型川崎病的临床特征及早期诊治。方法选取2014年7月~2015年8月我院收治的不典型川崎病患儿42例作为观察组,选取同期收治的典型川崎病患儿42例作为对照组。对两组患
中国散裂中子源的核心装置是质子加速器,在加速及打靶过程中,产生的中子和γ射线会在加速器大厅内形成较高的辐射剂量,假如人员误入正在产生脉冲辐射的高辐射区,将会造成严重
伴随着我国市场经济的深入发展,我国高等教育市场化的问题不可回避。当前,国际国内高等教育市场竞争日趋激烈,各层次、各类型的高校都必须走向市场,在市场的竞争中求得生存与发展
伴随着改革开放而迅速崛起的新中国民办教育已走过了二十多年的历程。发展民办教育已经确定为党和国家的一项大政方针。时至今日,民办高等教育已经成为推动高等教育大众化的