场景图像文字提取方法研究与应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:luck1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中的场景文字包含了重要的语义信息,比如街景图像中街道边广告牌上面的文字,道路指示牌上的指示文字,店面招牌上的店名,均能指示出与此相关的地理位置信息,而书籍封面图像中的标题作者,产品包装图像上的产品名称等则能说明图像中的主体是什么。因此将场景图像中出现的文字抽取出来,将会对场景图像的内容分析、检索和浏览提供有益的帮助,同时能够应用于盲人视觉和机器人视觉等应用。本文的全篇内容主要围绕如何从自然场景图像中提取文字的各个方面和步骤进行介绍。研究工作主要集中于自然场景图像中文字区域的定位,区域的二值化分割,包括一系列概念和算法的描述。从图像中抽取文字信息起初针对的对象是文档扫描图像,后来开始研究视频帧图像中的字幕抽取也越来越多,和上面两类图像相比,自然场景图像中的文字具有分辨率变化大,背景复杂,带有拍摄角度形变的特点,这给自然场景图像中的文字抽取带来很大的困难和挑战。在自然场景文字定位方面,我们提出分层块过滤并利用边缘特征聚类的方法。它在边缘检测的基础上,使用小尺度的区块过滤和大尺度的区域过滤的方法产生候选场景文字区域,在这其中将使用边缘特征聚类的方法将文字区块组合成文字条目区域。在不同尺度上的分层过滤方法能在保持较高查全率的同时大大降低虚警,而利用边缘特征聚类则能有效地将具有语义连贯性的文字区块联合起来构成文字条目区域。对候选的场景文字区域将使用一定的方法矫正拍摄形变,以利于后续的文字区域二值化工作。在自然场景文字区域二值化方面,本文提出两种改进方法:基于文字笔划宽度特征的聚类方法,使用笔划宽度作为主要特征对文字像素和非文字像素进行聚类,聚类效果不错,缺点是迭代次数多,计算速度慢。而基于文字笔划标记图像的融合方法则是大致标出文字笔划所在的区域,和传统的二值化分割方法融合得到最终的结果,计算速度快,并且也利用了文字的笔划特征,和传统的方法达到了很好的互补效果。文中所提出的算法都经过精心设计的实验的检验。实验表明本文算法具有较好的文字区域定位和二值化效果,增强了自然场景图像文字提取工作的实用性。文中所提出的算法已经被应用于实验室开发的互动媒体信息检索系统中,同时也希望本文算法在后续工作中能为实验室机器人视觉做出贡献。
其他文献
<正> 三十年代,陆修棠(1911—1966)在提高二胡演奏技术、丰富二胡表现力方面作出了卓越的贡献。他是一位著名的二胡演奏家、作曲家、教育家。《怀乡行》是他的处女作,也是他
三相交流异步电动机是一种将电能转化为机械能的电力拖动装置。它主要由定子、转子和它们之间的气隙构成。对定子绕组通上三相电源后,产生旋转磁场并切割转子,获得转矩。三相
运用文献资料、专家访谈和问卷调查等方法,对我国舞狮的社会特性和功能进行了研究,并对在体育院校开设舞狮课进行了相关调查。文章认为:舞狮具有历史性、民族性、传统性、文
18世纪的欧洲启蒙运动作为现代性的开端,是近现代各种哲学思想产生的缘起。道德情感主义伦理学作为欧洲启蒙运动时期英国伦理学的典型代表,在整个西方伦理学史上具有承前启后
<正>微传播有广义与狭义之分。广义的微传播是指以微博客、手机短信、彩信、飞信、QQ、MSN、户外显示屏、出租车呼叫台等为媒介的信息传播方式。狭义的微传播是以微博客为媒
韩国,位于亚洲大陆的东北部,全国疆域自北向南延伸,东濒东海,西临黄海,东南与日本隔海相望。韩国的历史可以追溯到公元前2333年,如今韩国作为一个独立的国家,在国际社会中有
<正>一、问题的提出在中学化学的各种教辅资料中一直都存在这样一种观点:将氯气通入溴化亚铁溶液发生反应时,Cl2与Fe2+和Br-反应的先后顺序是"Cl2先与Fe2+反应、后与Br-反应"
利用多普勒天气雷达定量测量技术提供的强度场、速度场和谱宽信息等,深入研究多普勒天气雷达探测资料,可以为人工影响天气作业、降水估计、各种天气现象的分析、区域降雨预警
软件的整个生命周期都离不开测试技术的辅助,无论单元测试、集成测试、系统测试,或者白盒测试、黑盒测试等都是从不同的方面去保障软件的质量。而软件测试技术中最热门的就是
在全球一体化背景下,供应链也正朝着全球化方向发展。一方面,这个趋势为企业带来世界范围内的需求,有利于企业扩大规模,获取更高利润;另一方面,需求多样化也在生产安排、产品