基于几何约束的笔划宽度变换(SWT)算法及其字幕文本定位应用

来源 :电子科技大学 | 被引量 : 10次 | 上传用户:vuittonwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动智能设备的发展,对自然场景图像中文本的提取和理解的需求越来越大,其结果可以广泛的应用于社会机器人导航和交互、图像检索等领域,然而传统的OCR技术只能分析扫描文档,无法直接应用于自然场景,关键原因就在于自然场景图像文本定位的问题,在自然场景图像中文本和非文本混合在一起,而且文本区域出现的位置随机,这给文本定位带来了很大的挑战。本文研究了自然场景图像文本定位技术,利用全局性特征度量和几何约束改进了传统笔划宽度变换算法,实现了文本定位整套系统,并在新闻视频字幕文本定位中进行了应用。本文的主要贡献有以下三个方面:首先,针对自然场景图像文本区域通常具有高视觉显著性、富边缘密度和颜色一致性的特性,本文提取了候选字符和文本行的全局显著性和边缘密度特征。此外,将文本区域的位置和尺寸信息也转换成了全局性的度量,弥补笔划宽度变换算法对局部噪声敏感的缺陷。其次,本文在传统的笔划宽度变换算法基础上进行改进,利用几何约束降低了候选字符黏连的情况。本文采用的的几何约束规则融合了笔画的宽度、颜色和方向特征,避免在笔划射线查找过程中由于边缘部分缺失而连接到非对称性边缘点上,从而形成黏连字符的情况。相比于传统的笔划宽度变换算法,对由于噪声、模糊、低对比度等造成的边缘缺失的情况下,几何约束笔划宽度变换提取出的笔划特征值比原始的笔划宽度变换算法更准确,形成的候选字符质量更高。由于几何约束减少了无效笔划射线的数量,使得候选文本像素更多的集中在文本区域,减少了非文本像素形成的候选字符区域,降低了字符水平和文本行水平过滤的复杂度,同时也避免了误判。最后,基于上述研究成果,结合新闻视频图像的特点和字幕文本排列的规律,本文将基于几何约束笔划宽度变换算法的文本定位在新闻视频字幕文本定位系统上进行了应用。
其他文献
传统整流器广泛采用二极管不控整流电路和晶闸管相控整流电路,产生大量的谐波,给电网造成污染。三相电压型PWM整流器具有网侧电流低谐波、输出电压恒定、能运行于单位功率因数
目标的表示和识别技术是图像分析和理解的核心环节,合适目标的表示是基于内容的图像检索的基础,不同的表示方法将导致不同的识别方法。目前已经有了不少目标表示方法,但是由
独立分量分析(ICA)是近年来由盲信源分离技术发展起来的多通道信号处理方法,可以帮助实现信号的分解和增强。将此方法应用于多导脑电信号的分离中,可以得到具有生理意义的若干
交流电动机是一种典型的非线性对象,自身的一些参数以及外部负载都具有不确定性,还有磁饱和、复杂的静动摩擦等问题。本文主要针对感应电动机运用无源性控制理论方法进行了调速
无刷直流电动机具有可靠性高、噪声低、转动惯量小、效率高等优点,因此得到了广泛的应用。然而无刷直流电机在传统的120°控制方中存在的转矩脉动限制了其在一些要求低噪音,高
人体运动捕捉技术用于采集人体的运动数据,并为相关研究人员提供数据支撑,该项技术已经应用于康复医疗、动画制作等领域。近年来,随着机器人技术的快速发展,该项技术也被广泛
量子计算是量子力学和信息科学相结合的新兴交叉学科,其中以量子算法为代表的量子计算因为其具有高度的并行性、指数级存储容量和对经典启发式算法的指数级加速作用,因此具有
如何自主实现人体目标的检测与跟踪是自主机器人研究领域的关键问题之一。此类问题中目标的前景观测是核心。传统的基于单目视觉的目标跟踪算法主要以已知的目标模型为依据,
具有直观、快速、可靠、操作简便等优点的金免疫层析试条,在临床测试中到广泛的应用,但由于多种因素的干扰,对其定量测试极其困难,因此目前停留在定性测试,极少数为半定量测试阶段
塔式太阳能发电是大规模太阳能发电中最为经济的方式之一。由于太阳辐射的不稳定性和间歇性,电站的稳定并网发电对其运行过程有着很高的要求。同时,提高系统效率、增强安全性也有助于实现太阳能发电的规模化应用。因此,对塔式太阳能热电系统进行模拟并对其运行过程进行优化具有十分重要的意义。本文对塔式太阳能热电系统进行了模拟和运行优化方面的研究。论文的主要工作如下:(1)根据TSA(PHOEBUS Technolo