基于自适应区域建议网络与自注意力机制的自然场景文本检测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xypcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文本有着丰富的语义信息,在自动驾驶、机器人导航、自动翻译等领域扮演着重要的角色,如何准确、高效地提取自然场景中的文本信息已成为当前计算机视觉的热点问题之一,此任务包含文本检测和文本识别两个子任务,前者是实现后者的前提。本文研究的是自然场景中的文本检测子任务,主要工作如下:(1)本文将采用基于Mask R-CNN框架模型的算法,因为其能够适应自然场景中的文本目标形状和旋转的变化。但原始的Mask R-CNN方法有较多的后处理步骤,这会造成效率的降低,同时也影响了性能。针对此问题,本文采用了基于角点回归的文本检测方法,并仅仅利用四边形非极大值抑制,对检测结果进行后处理。相比于原始的Mask R-CNN方法,该方法有着更少的后处理步骤和更高的文本检测性能。(2)原始的Mask R-CNN中的区域建议网络(Region Proposals Network,RPN)在训练时,需要人为设定一系列不同长宽比的锚点框(Anchors)。由于自然场景的文本目标的长宽比的动态范围较大,事先定义的尺寸难于覆盖这些范围,导致用于训练RPN的高质量正样本数量少,使得模型在测试阶段的文本目标召回率偏低。针对这些缺陷,本文提出了基于自适应区域建议网络的文本检测方法,有效地缓解了上述问题,并最终提高了文本目标的召回率。(3)原始的Mask R-CNN仅仅依赖感兴趣区域本身来判断目标的类别,当背景区域的纹理和文本相似时,上下文信息的缺失会导致算法常常将这些背景误判为文本目标。针对此问题,本文将自注意力机制的思想引入到文本检测任务中,该方法能够有效地构建候选区域的上下文信息,从而有效地抑制了伪正样本,因此提升了文本目标检测的精确率。本文上述提出的各种方法,其性能都在ICDAR 2015,MSRA-TD500等公开的数据集上得到了实验验证。
其他文献
今天,我们在这里召开全省首届职教教研工作会议,会议期间将有高水平的学术报告,有省职教教研改革和发展情况的介绍,有地方教研机构和职业学校的经验交流,还将对去年评选出的省职教
探索的四主教学思想,通过重视学生的主体地位,增强学生参与意识和有效的参与,体现了教为主导学为主体,疑为主轴创为主旨,促进了学生自主发展.培养创新能力,大面积提高课堂教学质量,全
从合同的超前策划、施工过程中的制度建设、内部管控、施工资源的优质配置、施工措施与变更索赔的关系等方面,阐述了如何在水电工程项目特殊的施工环境下,合理的获取项目的最