基于笔画宽度变换与卷积神经网络的场景文本检测方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:tu309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中的文本检测与识别是计算机视觉中的重要研究方向之一。这项研究可以应用于不同行业和不同领域,具有广泛的应用前景,例如车牌识别、多语言翻译、街景数字化、图像检索等。近年来,研究学者们的研究已经取得了一定的突破,并且搭建了一系列评估数据库。然而,由于图像场景多变、文本多样等因素,在场景图像中进行文本检测与识别仍然存在诸多挑战。另外,现有数据库的图像数量规模小,并且图像内容不能真实反映日常场景,因此亟待搭建一个更具挑战性的数据库。围绕着自然场景图像中的文本检测与识别的内容,本文主要工作如下:(1)搭建了一个用于场景文本检测与识别的文本数据库,命名为街景2000数据库(Street View 2,000,STV2k)。本文搭建的数据库图像数量多、标注全面、具有挑战性。数据库中的图像真实体现日常场景,在对比度、方向和物理外观等方面具有多样性。经过对比,本文搭建的数据库在图像数、中文类别数、字符数上是现有数据库中比较好的。分别利用文本检测和文本识别方法在本文搭建的数据库上进行实验。结果显示其性能表现比较差。数据库公开之际,已经提供给微软亚洲研究院、中科院自动化所和厦门大学的相关研究学者进行学术研究。(2)提出了一个基于笔画宽度变换与卷积神经网络的场景文本检测方法。本文检测方法的基本思想是利用笔画宽度变换算法获得的低层特征与基于卷积神经网络获得的高层特征相结合来进行场景文本检测。检测方法在ICDAR 2003数据库、多语言数据库以及我们搭建的STV2k数据库上进行实验对比。通过实验结果显示,本文提出的文本检测方法检测性能良好,并且在运行速度上具有较强的竞争力。
其他文献
危机谈判是以谈判的和平方式解除劫持者威胁、营救人质的执法行为,其成功的本质是有效的沟通。西方四十多年来危机干预的实战经验与研究表现,谈判沟通优于战术攻击;谈判者的
给定视频数据中某一未知类别物体的外观特征,在线视觉跟踪问题旨在对其进行准确的定位和跟踪。视觉跟踪是计算机视觉领域中的一项基础而关键的技术。在智能安防、交通监控、
现如今,我国各地区高等院校中教学质量管理机制的发展环节中具有侧重监管、轻视鼓励、重视对课堂教学的监管工作,轻视对社会环节的监控工作等问题,本文根据高校教学质量管理
裂缝性低渗透油藏已经逐渐成为我国油气开采的重要接替对象,注水开发是裂缝性低渗透油藏最主要也是最重要的手段。在注水开发过程中,由于油层渗透率低,吸水能力差,需要较高的
目的观察穴位敷贴治疗蛛网膜下腔出血性头痛的效果。方法选取蛛网膜下腔出血性头痛患者52例为研究对象。采用随机分组的方法,将26例接受穴位敷贴治疗者分为实验组,26例接受止
无论从近年来世界经济的发展实践看,还是从一个国家、一个地区的经济发展实践看,消费需求是经济增长的助推器,对经济增长有重要的拉动作用。在当前投资持续高涨和消费需求相
我国正处于社会经济快速发展时期,城市化是社会经济发展的必然结果。改革开放30年来,我国的城市化发展取得了举世瞩目的成果,与此同时,我国城市却也面临着严峻的公共安全形势
<正>近年来,随着畜牧业的不断发展,家禽养殖业规模扩大,养鸡集约化程度提高,家禽养殖所面临的问题和风险也越来越多,其中疫病的发生严重地影响了家禽业的生产和发展。疫病的
本文报道沈阳煤矿所属矿区井下煤及围岩矸石中天然放射性核素含量和井下γ辐射剂量估算结果,并与现场γ辐射剂量测试结果进行比较。证明用煤及围岩矸石放射性含量均值估算井下
倍硫磷是我国常用农药品种,也是日本进口大米的必检项目之一。本文应用气相色谱/红外光谱联用方法,探索了倍硫磷的最佳色谱条件,获得其气相色谱/红外光谱图,并依靠已有的气相红外