自然场景文本检测关键技术研究

来源 :解放军信息工程大学 | 被引量 : 1次 | 上传用户:X80908888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景文本检测(Natural Scene Text Detection)是指预测自然场景中文本的位置,完成文本定位的过程,它是计算机视觉领域中的热门研究方向。受自然场景图像中复杂背景、文本多样性等因素的影响,经过十多年的研究,虽然文本检测领域取得了一定进展,但是仍面临鲁棒性差、精度低等不足。为了提高文本检测的精度,本文对它包括的两个处理阶段:候选文本区域生成和文本区域定位分别进行研究,取得了不错的效果,主要研究内容如下。(1)针对现有的基于最稳定极值区域(Maximally Stable Extremal Region,MSER)的候选文本区域检测方法精度低,容易出现漏检的不足,本文首先引入用于图像中物体检测的对象建议(Object Proposal)方法对候选文本区域进行定位;然后和MSER生成的候选区域相结合生成较完整的初始候选文本区域;最后采用基于启发式规则的过滤算法得到最终的候选文本区域。实验结果表明,对象建议可以补全最稳定极值区域所漏检的候选文本区域,进而得到更好的文本定位结果。(2)针对现有的文本定位算法检测多方向文本效果差的不足,提出了一种基于随机区域扩张的多方向文本定位算法。首先,输入候选文本区域,在各个连通域上提取笔画宽度特征、视觉散度特征和边缘梯度特征,并通过贝叶斯算法将三个特征融合得到各区域最终特征值;其次,基于上述特征值,设计条件随机场模型进一步判断候选文本区域中的真实文本区域和非文本区域,得到初始的文本定位结果;再次,基于随机区域扩张,将属于相同方向的字符连接在一起,形成文本行区域;最后,寻找包围目标文本的最小矩形区域,定位文本行,得到最终的定位结果。实验表明,本文算法在自然场景文本检测数据集上取得了较好的检测效果,能够较好地定位多方向文本。(3)根据项目需求,基于本文提出的对象建议和最稳定极值区域融合的候选文本区域生成方法和基于随机区域扩展的多方向文本定位算法,结合国际上开源的场景文本识别算法,基于MATLAB设计并实现了自然场景文本提取系统,自动从输入的场景图像中定位和识别中文本内容。该系统已通过项目验收,取得不错的应用效果。
其他文献
行人检测是计算机视觉领域中非常重要的研究课题,也是众多视觉任务的基础和前提。其中,分类器和特征是行人检测的两个重要组成部分。AdaBoost分类器与一维特征的结合是一种常
随着大数据时代到来,人们对于数据处理的性能和功耗都提出了更高的要求。近年来发展出的新型非易失性内存(NVM),拥有可持久化的数据、读写速度快、低功耗、按字节寻址等优点,
Android系统开放、自由的特点使其受到了广大用户的青睐。随着其市场占有率的飞速增长,Android系统逐渐引起了黑客的关注,随之出现的Android系统恶意应用,也不断威胁着用户的
本研究利用智学网测评系统进行高中生物“迷思概念(Misconception)”的诊断及转变策略的探究。通过综合分析国内外有关迷思概念的研究现状,以及目前智学网运用于教学的现状,借助实习学校目前所运用的智学网教学服务平台,对高三年级某一次统一理综测试后,利用智学网测评系统具备的校级报告和班级报告功能,开展对生物学科迷思概念诊断的研究。首先对实验班级与其他班级进行整体对照,然后依据智学网对实验班级中5
闪存存储器存储元尺寸和存储密度的发展使得存储容量增加,价格下降,促进了闪存在存储系统中的进一步使用。另一方面,闪存发展带来的问题是可靠性降低,数据更容易出错。因此,
本文利用中国市场数据来研究投资者情绪与股票横截面收益的关系。我们选取每月新发基金规模、每月新开A股账户数、每月新开基金账户数、全市场股数换手率及分红溢价等五个与
随着互联网技术的飞速发展,互联网上的信息数据呈爆炸式增长,舆情信息的监控将起到非常重要的作用,它能从网络信息中找出低俗的、恶意的或带有诱导性的舆情内容,加强对网络内
预测控制已经成为工业界处理约束多变量优化控制问题时广泛采用的算法。由于干扰、模型失配等因素,常导致约束不可行或无法达到严格的设定值控制目标,通常采用软约束和区间控
随着产业的升级换代,各地更加注重第三产业的发展,旅游业是第三产业的重要组成部分。作为新化县旅游业的地标,梅山龙宫以其瑰丽的风景享誉海内,而导游词则是梅山龙宫对外宣传
分布式约束优化问题(DCOP)是一种用于解决多Agent系统协作优化问题的重要建模方式,具有隐私性、信息局部性、控制分散化等特点。目前对该领域的研究主要是算法理论方面的研究