自然场景图像中文本的检测方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:sannian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中文字包含了重要的语义信息,对整个场景内容和周围的其他对象的理解具有重要作用。但是因为光照,外观等环境因素的多样性和文字背景的复杂性,场景文字的检测面临着巨大的困难,自然场景文本检测一直都是计算机视觉领域的一个重要方向。本文针对自然场景文本检测提出了两个创新方法:基于多层次文本组件定位与生长的文本检测方法和基于窗口最大稳定极值区域的文本检测方法。在基于多层次文本组件定位与生长的文本检测方法中,首先融合最大稳定极值区域算法和笔画宽度转换算法提取出图像的文本种子像素,基于这些像素,采用字符内和字符间的多层次生长策略将完整字符生长提取出来。然后借助训练卷积神经网络分类器,从上述候选字符中过滤出非文字的候选区域,进一步使用一种基于随机游走模型的文本行提取方法将字符组成文本行作为检测结果;在基于窗口最大稳定极值区域的文本检测方法中,首先基于最大稳定极值区域获得初始图像的最大稳定极值区域平滑图,并在此平滑图上采用滑动窗口获得候选文字区域,称之为窗口最大稳定极值区域。然后依据窗口内的像素分布情况,去除了非文本的窗口极值区域。进一步依据每个窗口极值区域和其所属的最大稳定极值区域的从属关系,提取相关文本特征和训练随机森林分类器,并级联卷积神经网络分类器,用以过滤非文本窗口区域并输出每个字符区域的文本似然度,并采用基于划分子图和剪枝的方法获得文本行检测结果。针对所提出的上述两种场景文本检测方法,本文在多个公开数据集上对其有效性进行了验证。实验结果显示,归功于有效的生长策略,基于多层次文本组件定位与生长的文本检测方法在各个数据集上都能获得相对好的检测结果,尤其是召回率比较高;基于窗口最大稳定极值区域的文本检测方法在应对如中文等包含多组成部分的文字和粘连字符等情况时,能够获得相对鲁棒的检测结果。在后续工作中,上述两种场景文本检测方法尚存在进一步提升性能的潜力。
其他文献
新一代半导体材料-二硫化钼(MoS_2)的出现,给微纳结构探测器的发展带来了新的机遇与发展机会。但是,在可见光范围,由于其超薄的原子层厚度对光的吸收往往低于10%,对探测器的光响应度造成影响,所以提升材料的光吸收能力也是MoS_2基探测器所面临的一个重要问题。本文围绕MoS_2探测器增强这个主题,介绍了基于新型半导体材料MoS_2的光电探测器,包括它研究进展以及面临的一些挑战。同时也简单介绍了光学
随着多媒体技术与应用的快速发展,数字音乐在过去的几十年中,无论是在线上还是线下,都获得了快速发展,已成为人们日常广泛使用的主要多媒体资源之一。与此同时,为了对大量的
近年来随着创作领域题材的局限和技术变更,限定空间电影创作存在明显的叙事困境。限定空间作为一种具象化的场景类型,要求情节叙述和人物塑造在一个较大频率出现的固定场所中
随着信息网络时代的到来,网络虚拟财物在商业领域以及人们的日常生活中都发挥着重要作用,网络虚拟财物蕴含着巨大的经济利益。正因如此,非法获取网络虚拟财物的行为日益增多,
生态环境损害赔偿协议司法确认制度就是指当事人双方在磋商基础上达成生态环境损害赔偿协议,通过一定的程序确认该协议有效,以此保障协议履行的制度。这项制度属于我国改革的
在信息爆炸的时代,让研究人员高效地找到其感兴趣的学术论文,已经成为学术界和工业界亟需解决的一个问题。学术论文推荐系统可以在一定程度上解决这个问题。推荐系统通过对用
预制语块是一串预制且连贯的词或者其他意义单位,它整体存储在记忆中。自预制语块的概念提出以来,国内外学者对其研究主要集中于对预制语块概念的描述、分类以及探讨预制语块
运输毒品是毒品犯罪链上必不可少的一个环节,运输毒品罪更是高发、常见的毒品犯罪类型,司法实践中对该罪名的适用存在着较多争议,加之刑法对其配置的最高型为死型,故而常久以
计算机技术的发展使得增强现实技术逐步走向成熟,与此同时电子商务越来越成为人们生活中不可或缺的一部分。服装网购作为电子商务中的重要一环有着广大的需求。然而仅通过浏
为探明油菜角果SPS(蔗糖磷酸合成酶,Sucrose photophate synthase)与PEPC(磷酸烯醇式丙酮酸羧化酶,phosphoenolpyruvate carboxylase)的活性变化及碳氮累积动态对籽粒油分与产量