自然场景文字切分和文本行识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dd2010875
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字识别是模式识别领域的核心分支之一,近年来,场景文字识别这一子问题得到研究者的广泛关注,场景图像中的文字识别对比传统的印刷文档识别和手写文档识别有其独特的问题,例如图像中背景往往比较复杂,图像质量受光照、分辨率等影响较大,这些特点使得场景文字识别具有很大的挑战性。本文以场景图像中的英文词识别和数字串识别为任务,对自然场景文字中的切分和文本行识别方法进行了研究,主要研究内容分为两部分:  1、提出了一种基于多层感知机的场景文字过切分方法。该方法利用神经网络分类器的高效的判别性能,以滑动窗的形式在文本行中定位字符间的间隔,对比传统的基于启发式的过切分取得了更高的切分点召回率和精度。基于该方法的场景文字识别系统在多个标准数据集上取得了比现有方法更好的性能。  2、提出了一种基于递归神经网络(Recurrent Neural Network,RNN)的文本行识别方法。本文在标准RNN的基础上采用长短时记忆(Long Short TermMemory,LSTM)模块替换神经网络中的隐层节点,并将标准的RNN扩展到双向网络以更好地捕捉文本行中的上下文信息,进一步结合序列化梯度方向直方图特征,在场景图像数字串识别中取得了较好的结果。
其他文献
物体识别是计算机视觉中的经典问题,该领域涵盖了计算机视觉中的物体分类、物体检测、物体匹配等任务。物体识别技术的研究为很多高层视觉任务的解决奠定了基础,同时也在工业界
目前,随着控制、计算机、通讯、网络等技术的发展,信息交换领域正在迅速覆盖从工厂的现场设备层到控制、管理的各个层次,从工段、车间、工厂、企业到世界各地的市场。信息技
本文在分析石油化工行业企业信息化的现状和需要解决的问题之后,结合现场总线技术对企业信息化发展所提供的技术支持作了探讨。在此基础上,提出了基于现场总线技术设计和实现物
正电子发射断层成像(Positron emission tomography, PET)可以在体监测放射性标记探针的分布情况,提供代谢信息,反应肿瘤发生发展扩散的情况,因此被广泛用于多种疾病的早期诊断
隐写术主要研究如何将隐秘信息隐藏于正常载体中,它是实现隐秘通信的主要技术手段之一。隐写分析的目的是检测数字媒体中是否存在隐秘信息。本文研究了基于图象特征和基于攻击
由于酸碱中和反应中pH值呈现严重的非线性及大时滞,给pH值控制带来极大的困难,pH值一直被公认为最难控制的变量之一。 为提高教学和科研水平、学生的工作能力及对非线性算法
语音识别技术是人类迈向高度智能化和自动化的信息社会所必备的关键技术之一。经过几十年的艰苦探索和研究,语音识别技术研究获得了极大的发展,某些比较成熟的技术已经逐步应用
本文研究基于广义粒子模型的分布并行智能处理的理论和方法。通过引力场中广义粒子的运动学和动力学模型,研究复杂环境和复杂交互模式下群体智能的演化机制,建立个体微观行为与
IGCC(Integrated gasification combined cycle)是最有发展前途的洁净煤发电技术之一。世界上许多国家都投入了大量的人力、物力资源进行相关研究,现已经进入商业示范阶段。然
非平稳信号分析是信号处理学科的重要领域,也是一个难点,其目的是分析和处理非平稳信号的局部特性,用某些时变的统计量来刻画信号。本论文对非平稳信号的自适应分解算法及应用进