基于共享卷积特征图谱的趋向于端到端的场景文字识别

来源 :山东大学 | 被引量 : 0次 | 上传用户:btly540205390
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文字识别,手写文字识别,音乐乐谱识别等基于图像的序列识别问题一直是计算机视觉领域的研究热点。不同于识别扫描文档中文字的光学字符识别(Optical Character Recognition),场景文字识别(Scene Text Recognition)指的是识别自然场景图像中的文字。鉴于自然场景图像的背景复杂(栅栏,草丛,建筑物等),图像中的文字模式多变(字体不一,排列方向多变,艺术字等),场景文字识别目前还面临较多的技术难点。传统的场景文字识别主要包括3个顺序子任务:文字检测,文本框裁剪和文字识别。传统的场景文字识别算法在文字检测和文字识别阶段都需要使用卷积神经网络提取输入图像的特征图谱(向量),此外还需要使用OpenCV等图像处理工具将只包含文字的文本框从图像上逐一裁剪下来。这些冗余的步骤显著地降低了场景文字识别系统的识别速度。传统的场景文字识别算法将文字检测和文字识别视为2个独立而且互不相关的子任务。实际上文字检测和文字识别是高度相关且互补的任务。精准的文字检测可以提高文字识别的准确率;同理文字识别特征也可以辅助于文字检测。利用卷积神经网络的平移位置不变性,我们提出可以在文字检测和文字识别之间共享输入图像的特征图谱(向量)。由于只使用深层卷积神经网络提取一次输入图像的特征图谱,因此其可以提高场景文字识别的速度。综上所述,本文提出的场景文字识别算法拥有以下创新点:(1)通过在文字检测与文字识别之间共享卷积特征图谱,可以将文字检测与文字识别整合成一个统一的神经网络。相对于传统的算法,我们的模型在一次前向传播过程中可以检测和识别出整张图像中的文字,避免了中间的一些冗余的步骤,比如特征图谱的重复计算,文本框的裁剪等。此外本文提出的场景文本识别网络是一种端到端的可训练的神经网络。为了训练这个统一的神经网络,只需要原始的自然场景文字图像,文字边界框坐标及相应的转录文本(文本标签序列);(2)与传统的场景文本识别方法相比,本文提出的方法具有更高的识别效率。经过在ICDAR2015数据集上验证,我们提出的算法可以显著提高场景文字识别系统的速度。在大多数情况下我们的模型识别一张图像只需要0.3s。
其他文献
向行政机关发出诉前检察建议是检察机关在行政公益诉讼诉前程序中发挥监督作用的重要方式,其实质是行政公益诉讼制度的过滤机制。2015年6月,我国最先在北京等13个地区开展关
对于半导体自旋电子学器件而言,自旋注入层材料选择一直是个问题。注入层材料选择的根本问题是金属自旋注入材料与半导体材料的电导不匹配,从而导致自旋注入效率下降。后来人们尝试利用稀磁半导体作为自旋注入材料来解决电导不匹配问题,但是稀磁半导体的铁磁性仍是无法被解释的。因此后来人们把目光放在了铁氮化合物,开始对铁氮化合物进行研究。铁氮化合物有着不同的结构,其中ε-Fe_3N材料具有良好铁磁性。另外,GaN作
互联网服务正在极速运行和发展,并朝着多元化的方向持续变革与创新。网络结构逐渐复杂化,预测模型可为网管中的带宽配置、路由管制和差错调节提供必要的参考,对提升网络性能以提供更好的服务质量(QoS)具有尤为重要的意义。因此,网络流量的分析和预测技术一直是相关领域的热门研究课题。首先,本文在研究了网络流量复杂非线性特征的基础上,对来源于国内高校网络中心内不同设备线路的真实网络流量数据进行筛选和采集;然后从
螺栓是机械设备中常用的紧固件,具有结构简单、装配方便、经济适用等优点。但在实际工况中由于振动冲击等因素造成螺栓失效,导致很大的隐患,为了探究螺栓连接的松动机制研究人员进行了一系列的试验。目前对于螺栓连接的研究主要集中在螺栓/螺母的配合结构中,而对于盲孔螺栓连接结构的研究较少。本文对剪切激励下盲孔螺栓连接结构的松动行为开展研究,并且对盲孔螺栓的疲劳寿命进行分析验证,这对盲孔螺栓连接的实际应用具有重要
随着3D打印技术的不断进步,表达清晰、观赏性好且不需要后续处理的彩色模型,逐渐引起了人们的关注,彩色3D打印已经成为消费者的普遍需求。然而,作为目前3D打印领域模型描述的
随着人口老龄化和医疗资源不平衡等社会问题日益严峻,移动医疗技术受到了广泛的关注。植入式医疗设备在移动医疗系统中主要用于感知人体生理信息。相比于传统的有线连接或线
在现代化的制造过程中,制造过程自动化程度及工业复杂度不断提高,单纯依靠传统的多元统计过程控制(Multivariate Statistical Process Control,MSPC)监控制造过程的异常已无法满足现代化制造过程的要求。随着信息采集技术的发展,制造过程产生了大量的数据,而如何利用好这些数据并服务于多变量过程质量控制领域成为研究人员急需解决的问题。在大数据时代背景下,许多的机器学习算
随着河北省规模化畜禽养殖场与日俱增,环境污染风险也日益突出,因此实现环境友好型畜禽规模化养殖对于畜禽环境污染的防控具有重要意义。基于此,本文首先通过污染物测算和ArcGis10.2空间分析功能对河北省畜禽污染现状进行分析,其次运用EKC模型了实证分析了河北省不同畜禽养殖规模下的COD、全氮、全磷排放规律,并通过模型方程计算出河北省适合的养殖规模理论值,探明了污染物排放的主要来源;再次,分析了不同规
随着计算机技术的迅猛发展,互联网因其包含的海量信息而越来越多的成为了人们获取信息的主要场所。也有了更多的人乐于在互联网上分享自己的知识,这导致了网页数量的爆炸式增长。据1月31日中国互联网络信息中心(CNNIC)在京发布的第41次《中国互联网络发展状况统计报告》显示,截止至2017年12月,我国网民数量已经达到了7.72亿,占人口总数的55.8%,超过全球平均水准4.1个百分点,超过亚洲平均水准9
对于军人而言,古今中外的国家都要求其严格遵从上级的命令。这不仅是军队秩序维护的基础性条件,同时也是军队战斗力得到保证的重要因素。但是,下级军人是否应当对上级的所有