基于Adaboost的场景文本定位研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:qiongxiaobao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体网络技术的发展,大量场景图片进入了人们的学习、生活和工作当中,场景中的文本信息作为一种重要的语义信息,对场景的理解、分析和检索有着重要的作用。因为自然场景中文本的颜色五颜六色,字体大小不一,这使得场景中的文本定位比起传统文档文本定位更加具有复杂性,因此场景中的文本定位成为了计算机视觉中的重要研究课题。本文在研究和总结近10年国内外文本定位方法的基础之上,对场景文本定位进行了深入研究,提出一种基于Adaboost的场景文本定位方法,主要包含图像的预处理、生成候选文本区域、特征提取和候选文本区域的分类四部分。在预处理阶段,通过实验比较了灰度化处理的三种方法,最大值法、平均值法和加权平均值法,并对实验结果的优缺点进行对比分析,提出了选用加权平均值的方法对图像进行灰度化处理;提出了一种基于改进的Sobel算子边缘检测算法,实验结果表明,本方法不仅能够有效地提取图像的边缘,而且能够很好地解决边缘检漏问题,并且具有一定的抗噪性能。在生成候选文本区域过程中,本文提出了使用文本尺寸特征和边缘密度特征来表征文本字符特征,实验表明,利用这两种特征对连通区域进行分析与筛选,能够大量地排除明显不属于文本区域的连通区域,最终得到候选文本区域。本文提取了4类场景文本特征,分别是Gabor特征、笔画密度、纹理统计特征和图像导数的方差和期望,实验结果表明,这4类文本特征分别构建的分类器对文本区域的分类都有一定的作用。本文通过改进经典的Adaboost算法,提出基于Adaboost的场景文本定位方法,利用分类与回归决策树((CART,Classification And Regression Tree)的Adaboost算法对4类本文提取的文本特征生成的弱分类器进行组合,生成了一个对场景文本区域具有很强分类能力的场景文本分类器,然后利用Adaboost强分类器对候选文本区域进行筛选,最终获得了正确的文本区域。本文建立的数据库包含了300幅自然场景图像,分类器的训练样本为200幅图像,分类器的测试样本为100幅图像。本文所提出的方法对文本进行定位的准确率为82.8%,召回率为85.8%。实验表明,利用同样的测试样本,本文定位方法优于文献所提供的的方法,不仅对场景文本图像中字体、大小和颜色多变的文本具有很好的定位效果,并且具有非常高的召回率和准确率。
其他文献
汉语句法分析是中文信息处理的关键技术,是对汉语进行深层次理解的基础。句法分析性能的提高对于机器翻译、信息检索、信息抽取等应用技术性能的提高都会有巨大的推动作用。目
随着Internet的日益普及,Web应用的复杂性不断地增加,其规模也在不断的扩大,对于灵活性、可靠性和个性化都提出了更高的要求,这就给Web应用开发带来了新的挑战。 在现有的Web
随着Web 2.0等相关技术的应用和发展,社交网站蓬勃发展起来,深刻的影响着人们的生活。与此同时,移动终端的计算能力和功能也越来越强大,能够处理多媒体信息。另外,随着3G的到
插值技术是曲线曲面造型以及数字图像处理的重要方法之一,在工程设计、动画制作、视频图像处理等领域有着不可替代的作用。为进一步改进图形图像处理中使用的插值方法,本文对
近年来伴随着计算机网络通信和多媒体技术的迅速发展,数字媒体的传输、处理变得非常的方便。然而,任何事物都有正反两方面。数字媒体在带给人们方便的同时,也引入了一些潜在
电子图档的重用是提高CAD软件使用效率的重要手段之一,如何从大量的图档数据库中方便、快捷地查询与获取用户所需图档资料是其中的关键。目前,用户一般是根据图档的名称、设
随着计算机和网络技术的飞速发展,控制技术被广泛应用于工业、农业、交通、航天、管理以及人工智能等领域。由于传统的控制器具有兼容性差、结构复杂、二次开发困难和技术滞
句子检索在自然语言处理领域有着广泛的应用,一直以来都为人们所关注。在问答系统、自动文摘、EBMT、翻译记忆、新信息检测中,句子检索模块的检索质量会直接影响到上述系统的
应急通信是在出现人为或自然的突发性紧急事件,正常通信设备受损的情况下,保障紧急救援、救助和必要通信所需的通信手段和方法。应急通信监控系统的作用是实时地监控系统的状
近年来,随着信息技术的迅猛发展,计算机和其它数字设备的使用量激增。与此同时,高科技领域的刑事犯罪和司法纠纷日益突出,这不仅给受害者造成了巨大的损失,对社会、国家安全