叠加文字和场景文字提取研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：qq237599512

【摘要】

：

随着互联网技术的普及和多媒体技术的发展，在传统基于扫描文档的OCR技术广泛应用的同时，针对更具一般性的图像文本检测识别技术的需求正在不断凸显。图像中的文字包含着与图像

【作者】

：

胡平

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2013年期

【关键词】

：

场景文字叠加文字识别系统特征提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的普及和多媒体技术的发展，在传统基于扫描文档的OCR技术广泛应用的同时，针对更具一般性的图像文本检测识别技术的需求正在不断凸显。图像中的文字包含着与图像内容密切相关的语义信息，准确地提取这些文本对于理解图像内容具有重要意义。在人工智能技术不断发展和广泛应用的今天，这项技术可以被应用到多个领域，例如多媒体内容的理解、分析与检索;场景理解与自动导航;文本提取与即时翻译;视觉辅助等。一般来说图像中文字主要包括两种形式:场景文字和叠加文字。场景文字指的是存在于自然场景中随着景物一起被拍摄下来的文本。这类文字形态具有较多的变化，文字的字体风格、大小、颜色、位置以及排列都比较随意，在拍摄的过程中容易受到光照等因素的影响从而造成图像退化。叠加文字则是指在视频和图像中，后期由人工添加的文字，如字幕、标题等。叠加文字的字体字形规范、颜色均匀一致且位置相对固定，但往往出现在相对较为复杂多变的背景当中。一个图像文字识别系统中，主要包含文字提取与文字识别两个组成部分。文字提取又可以被分成文字定位与分割，将定位候选区域中的文字像素从背景中精确分割出来能够大大降低识别难度。因此文字提取是后续识别步骤的基础，文字提取的精度对于整个图像文字识别系统的准确度起着关键的作用。图像中文字由于成像退化或者复杂的背景导致了较大的提取难度，但同时也吸引了较高的研究关注度。本论文的研究和讨论主要关注场景文字和叠加文字的定位分割，具体内容如下:　　第一，从人类视觉注意机制的角度出发，对图像文字的视觉显著性进行了探索。文字区域通常具有底层视觉显著特性和高层视觉显著特性。从底层视觉显著性的角度出发观察发现，显著物体所在区域的像素相比于背景往往具有紧凑的颜色分布和纹理分布。基于这个观察，提取超像素的紧凑度特征和颜色特征，利用极限学习机在输入图像中学习并区分显著区域和背景区域从而实现显著目标的检测。　　第二，提出了基于文字边界以及卷积神经网络的叠加文字检测算法。算法首先利用叠加文字相对于背景的强对比度，结合文字笔画结构的多方向性和分布紧凑性，提取文字边缘特征进行候选区域粗定位;然后利用卷积神经网络对候选区域进行进一步判别，得到相应的置信度图;最后对置信度图进行投影分析得到文本行的准确定位。　　第三，针对场景文字检测中具有挑战性的问题之一-多方向文字检测，我们根据场景文字本身所具有的特点提出了基于显著闭合边界发现与方向学习的方法进行多方向文字检测。我们首先根据人类视觉特点和文字成像特点，检测图像中显著闭合区域作为候选文字区域。同时我们利用卷积神经网络的学习能力与表达能力，针对文字/非文字以及文字方向性进行学习。训练得到的卷积神经网络对候选区域进行检测并将输出作为特征。然后使用得到的卷积特征结合位置信息对所有候选字符区域进行聚合聚类，最后对聚类结果进行验证得到文本行。　　第四，提出了一种将文字像素从复杂背景中分离的二值化方法。本算法首先根据选定区域中像素与边界区域像素的相似性与连通性计算该像素属于文本的置信度;然后使用颜色聚类算法将候选区域划分为不同的颜色层，并对边界连通区域进行判断从而去除边界背景区域;最后衡量不同颜色层与置信度图的相关性，选出最相似的颜色层作为分割结果。本方法结合了图像文字颜色均匀分布的特性与空间分布特性，能够有效地将文字像素从定位区域中分割出来。

其他文献

基于链接预测模型的移动用户偏好预测方法的研究与实现

最近几年,伴随着移动终端硬件设备和软件系统等飞速发展,人们对于移动通信网的需求与日俱增。随着移动终端设备自身的信息传输、承载能力的不断提升,以及微博、社交网络和网

学位

信任度链接预测时间衰减移动用户偏好预测

基于智能手机使用行为的心理健康预测

心理健康是人类健康的重要组成部分，及时对心理健康问题进行诊断并进行后续治疗具有重大意义。传统心理测量方法受便捷性、效率等影响，无法满足当前社会对心理健康服务的需求。

学位

心理健康实时预测智能手机使用行为自助干预

网络安全态势分析相关算法及关键技术研究

本文针对网络安全态势分析，研究数据的分析算法和处理流程，致力于提高数据处理的时间效率，增加处理后数据的信息量，优化数据处理流程以及满足态势分析的实时性等。论文对网络安全

学位

计算机网络网络安全入侵检测软件工具

数字钢闸门智能化设计系统及关键技术研究

钢闸门是水工钢结构最典型和最常用的类型之一，也是直接影响到水利工程安危与经济效益的重要部位之一。钢闸门三维设计是伴随着坝工三维设计发展起来的，在引用产品生命周期概念

学位

水工结构钢闸门三维设计数字图形信息集成数据挖掘智能模板库

探空火箭箭载综合服务系统研究

随着火箭探空事业的发展，探空火箭所搭载的科学试验有效载荷种类越来越多，每次任务有效载荷种类变化大、任务需求灵活多样，这就对探空火箭的服务有效载荷提出了比较高的要求。传

学位

空间探测运载火箭火箭设计功能模块

面向混流制造的管理优化关键技术研究

经济全球化削弱了传统地域垄断经济的优势，使全球竞争越来越激烈。激烈的竞争迫使制造企业采用更先进的信息技术和管理技术对生产线的制造过程进行精确的规划、设计和控制，不断

学位

混流制造射频识别过程管理生产计划订单管理动态调度

基于VANETs的交通信息发布与路径规划研究

随着汽车数量的快速增长，拥堵成为城市交通中需要解决的一个十分紧要的问题。交通拥堵不仅浪费了驾驶时间，还增加了尾气排放与能源消耗，影响着人们的日常生活。一些研究者利用VA

学位

城市交通状态探测信息发布路径规划V2R通信模式

伪布尔问题的启发式方法及其应用

对于超大规模集成芯片，过高的瞬时功率可能会导致运行时错误，降低其可靠性;同时，高功率带来的诸如散热的问题，也会影响芯片的性能。于是，要设计高性能，高可靠性的芯片，就一定要获得

学位

伪布尔问题电路峰值功耗启发式方法超大规模集成电路芯片设计

多数据库系统研究

该文在介绍了数据库系统的一般理论以及引入多数据库系统理论必要性与现实性的基础上,从对多数据库系统的理论研究开始出发,较为详细的讨论了在多数据库系统下如何保持数据的

学位

并发控制数据库管理系统分布式数据库多数据库系统渤海石油研究院

软件水印技术研究

随着互联网的发展,信息交换在今天变得越来越方便。在带来便利的同时,新技术也产生了诸多的社会问题。软件作为一种特殊的智慧财产,与人们的日常生活联系得越来越紧密。相应

学位

软件水印PE文件ELF文件冗余空间重排

叠加文字和场景文字提取研究

与本文相关的学术论文