基于深度学习的端到端手写文本检测与识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhang504752895
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前对端到端的文本检测与识别模型的研究取得了不错的进展,该领域研究主要分为两个方向,一类是结合文本行检测和RNN解码的方式,这类方法无法检测单个字符边框。另一类是结合Faster RCNN检测算法和ROI pooling方式构建两阶段模型,这类方法可以检测每个字符,但计算量大。在这项研究工作中,我们提出了一种新型的端到端单阶段模型,可以直接预测单个字符的边框和相应的字符类别,克服了基于RNN解码和基于ROI pooling的方法带来的限制。本研究在主干网络中使用了不同尺度特征图融合的方法,显著提升了检测和识别性能。为了优化小字符的检测,使用了随机复制的策略扩充了小字符的数量并增加了字符的空间位置多样性。对于一些显著偏离文本区域的噪点,本文提出了一种新的后处理方法,可以有效过滤噪点。由于字符级的用于手写文本检测和识别的公开数据集非常少,所以我们开发了一套手写文本自动标注系统,这套系统使用知识迁移的方法,在合成手写图像数据上进行模型训练,在真实文本图像上进行字符检测和识别。实验证明系统在真实图像上的检测m AP达到87%,识别精度达到70%,并且该系统的应用能节省人工标注70%以上的时间。在自动标注系统中,我们使用了文本行网络模型和文档网络模型两种方式来自动生成标签。文本行网络是基于文本行字符检测与识别模型,本研究对文本行模型的字符中心定位网络分支进行创新,使用了非平衡损失函数提升易定位出错字符的权重,从而整体提升了字符检测与识别性能。文档网络模型使用本文提出的多尺度融合单阶段模型,这两种方式在真实图像上的标注效果都满足实用性。
其他文献
汉语复句的关系识别是对分句间语义关系的甄别,是复句语义分析的关键,旨在从文本中识别句间的关系类型。对于复句关系类型识别的研究有助于推动机器翻译、智能问答、自动生成
全球范围内存在着不同程度的铬污染情况。这些铬污染主要来源于工业过程中产生的含铬污水和铬渣的堆积排放,这些污染的废弃物在下渗和淋滤作用下又进一步污染地下水。Cr(Ⅵ)溶
随着工、农业的快速发展,大量重金属污染物通过各种途径进入土壤环境,造成土壤重金属污染。镉是生物毒性较大的重金属元素之一,土壤中的镉具有化学活性强、迁移性大、毒性持
随着燃气轮机向着高温高效方向的不断发展,使其燃烧系统中的工作环境更加严峻苛刻,许多金属零部件将经受更严酷的高温、热冲击、热腐蚀以及粒子冲蚀作用。因此需要采用陶瓷热
工作在盖革模式(Geiger Mode,GM)下的雪崩光电二极管(Avalanche Photodiode,APD)具有对单个光子进行检测的能力,也被称为单光子雪崩光电二极管(Single Photon Avalanche Diod
深度信息检测作为计算机视觉领域研究的热点问题之一,其研究有助于解决三维重建、场景理解、深度感知的图像合成等问题。深度学习中有关深度信息检测的算法大多是基于图像的
本文以低阶煤为原料,从褐煤中提取腐植酸,并进一步改性、掺杂制备腐植酸基多孔炭载体,初步研究了腐植酸基多孔炭载体的制备方法,考察不同制备条件对多孔炭载体性质的影响;采
黄麻是天然韧皮纤维,由纤维素、半纤维素、木质素、果胶、脂肪、灰分和树胶组成。黄麻纤维很长,是一种天然长丝纤维,手感柔软,光泽明亮。黄麻的用途多种多样,包括服装、土工
卫星遥感成像系统与目标物体距离较远,导致图像处理中存在识别率降低和部分细节信息缺失等问题,影响遥感图像中目标的精确提取,因此对遥感图像超分辨率重建方法的研究具有重
在线学习社区中的学习分析研究对于了解学习者的学习情况,辅助教师进行教学决策有着重要的意义。该领域研究早期主要基于统计和行为数据进行学习行为分析,近年来研究者越来越