基于分层检测与空间上下文的自然场景英文文本定位方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:onlinemaji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的发展和数码相机等数字成像设备的普及,人们采集并存储了海量的自然场景图像。自然场景图像承载了丰富的信息,而图像中的文本作为强有力的高层语义资源,对于图像内容的描述和理解以及基于内容的图像检索具有极其重要的意义。因此,自然场景图像中文本信息的自动提取成为亟需解决的问题,文本定位是其中重要的技术环节,亦是计算机视觉领域中的一个极具挑战性的研究课题。   本文旨在对自然场景图像中的文本进行精确定位。采用由粗到细逐步分层检测的方式,避免传统单粒度检测中常见的误检和漏检率较高的问题。设计自然场景文本的多特征提取及分类算法,解决单一文本特征判别力差以及普适性低的问题。引入文本空间分布信息,设计概率推理框架实现文本特征与文本空间上下文的融合,有效地提高自然场景文本定位的精度。   本文针对自然场景中文本定位中的文本区域检测、文本特征提取及分类、文本空间上下文表示等问题进行了深入的研究,主要研究内容及贡献如下:   1.提出了单词级和字符级的文本分层检测算法。单词级的文本检测利用了自然场景文本笔画宽度的一致性,提出基于文本笔划宽度变换的检测方法,该方法的优点是不受文本字体、大小、排列方向、颜色等条件影响。字符级的文本检测是在单词级文本检测的基础上,在得到的候选区域中,利用滑动窗口分类器检测字符。实验结果验证了所提算法的有效性。   2.提出基于随机森林的多特征字符分类方法。为解决字符级的文本检测,分析了多文本特征选取及分类器参数对文本分类效果的影响。训练出性能较高的基于随机森林的多特征文本分类器,实验结果验证了多特征在文本分类中的有效性。   3.提出基于文本空间上下文信息的文本定位方法。在条件随机场推理框架下,引入文本空间上下文信息,结合文本检测信息,进一步提高文本定位精度。实验结果验证了算法的有效性。  
其他文献
随着互联网技术的飞速发展以及多媒体信息的急剧增加,人们对多媒体信息系统的安全性、可靠性、稳定性以及高效性提出了更高的要求。传统的C/S结构开发的应用系统普遍存在着效
云计算因其高效快捷、轻松实现数据共享、对用户终端要求低、强大计算及空间等优势,在互联网资源中占有重要地位。但安全问题却成了云计算快速发展的主要障碍,制约着云计算的发
21世纪,科学技术日新月异、多媒体信息铺天盖地,作为一种特殊的知识形态,近年来,图像内容受到了人们的广泛研究,尤其在特征提取、情感计算、图像检索方面取得了丰硕成果。但图像研
在过去的几十年里,由于安全和商业领域应用需求的日益增长,人脸识别已经成为了研究的热点。许多新的人脸特征提取技术被提了出来,其中一部分已经成功的在实际中得到了运用。
模型检测作为一种重要的形式化验证技术,具有可靠、高效的优点,能够实现自动验证,获得了越来越多的关注,并在硬件电路、通信协议、控制系统、安全认证协议等方面的分析与验证
随着嵌入式技术和视频编码技术的发展,以及人们对视频应用的需求同益增加,在嵌入式平台上实现视频的采集编码已经成为当前研究的热点。由ITU-T和ISO/IEC共同制定的H.264,与以
旅行商问题(TSP,Travlling Salesman Problem)是经典的组合优化问题,也是属于NP难问题。实际中的技术工程问题,如电路板钻孔问题,城市规划问题,邮递员送信问题,网络布局问题
轮廓检测和图像分割是计算机视觉领域两个最基本的关键问题。传统的基于区域和边缘的方法,不能同时兼顾抗噪性和检测精度,难以满足复杂分割应用的需要。自然图像中的轮廓检测算
在网络使用过程中,由于用户具有各自的兴趣爱好和访问习惯,因此其关注的内容不完全相同,使用网络的时间和服务也各不相同,并且不同的用户群体不可避免地带有各自的群体行为特征。
程序测试是保证程序正确性的重要手段,而测试数据的选择以及测试数据的生成是其核心与关键。然而目前程序测试的测试数据的生成方法多是针对数值型数据,如整型数据、实型数据