基于机器学习的自然图像中文本检测及多文种辨识方法研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:wangzhujiaqiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字在人类思想情感以及文化传承中是十分重要的符号工具,在社会生产生活的各个方面都体现出了文字的重要性与不可替代性。在现代城市环境中,文字是普遍存在的元素,如海报、道路标志、牌匾灯箱等,其中不乏大量的文字信息。在自然图像中,文字所表达的语义信息是理解图像内容时一个很重要的参考信息。自然图像中的文种辨识是基于内容的图像检索和多语种系统开发领域的一个重要方向。在自然图像场景中文字的检测及其文种的辨识有相当大的难度:不同自然场景中的文字含有不同的特性,例如颜色不同、数量不一、大小与间隔不同等;而且在自然图像中,文字的背景往往很复杂,同时存在着诸如噪声、倾斜和透视变换等各种问题。这些都对自然图像中的文字检测和文种辨识工作带来了极大的困难。如何有效地对包含有多种语言文字的自然图像进行处理成为自然场景分析与理解中亟待解决的难题。本学位论文提出了一种基于视觉显著性和边缘密集度的文本区域检测方法以及基于图像特征和机器学习方法的文种辨识方法。首先,提出了基于视觉显著性和边缘密集度的文本区域检测方法。该文本区域检测方法通过多尺度谱残差方法来检测视觉显著性区域,接着在视觉显著性区域内使用Sobel算子来对图像进行检测边缘,通过计算图像的边缘密集度,再使用数学形态学方法对图像边缘进行预处理,最终通过自然图像中文字排列的先验知识来检测文本区域。其次,提出了基于基本图像特征与机器学习方法的文种辨识方法。该方法对阿拉伯数字、英文、俄文、日文假名、简体中文和朝鲜文构建了文字样本图像并提取其骨架,利用该骨架的基本图像特征构造相应文种的特征集,并根据不同文种的结构特征,结合分类方法的特性,将文种辨识分为两个阶段.·粗分类阶段和细分类阶段。在粗分类阶段,使用支持向量机将文字划分为两大类,第一类中包含阿拉伯数字、英文、俄文和日文假名,第二类中包含简体中文和朝鲜文。在辨识阶段,使用支持向量机对第一类文字进行文种辨识,使用BP神经网络对第二类文字进行辨识。实验结果表明,本文提出的基于视觉显著性与文字边缘密集度的文本检测方法得到了 73%的检测率,基于基本图像特征与机器学习方法的文种辨识方法得到了 73.33%的辨识率,解决了自然图像中的文本检测与文种辨识问题,同时也验证了本学位论文所提出方法的正确性与可行性。
其他文献
录井导向模型图是利用邻井的测井数据,对区块中的目标储层进行综合分析,建立地层模型,描述测井参数与储层之间联系的综合性图形。导向模型图反映了井眼轨迹在地层中钻进的情
自从互联网诞生以来,尤其是网络应用在最近十年的迅猛发展,很多公司的互联网上的业务数据呈现爆炸性增长的态势,这些数据内容涉及了诸多领域,是公司发展必不可少的保证。继互联网
互联网的迅速发展促进了网络教育的发展,但随之而来也出现了一些网络信息生态问题。本文主要研究了网络信息生态,将信息生态理论应用于教育类网站,针对教育类网站提出了一套
当前,无线传感器网络以其多样化的应用而备受关注。它可以广泛的应用于教育、军事、医疗和交通等领域,并拥有巨大的潜力和市场价值。因此无线传感器网络成为现今一项热门的研
人脸识别作为生物特征识别的一个重要分支,一直是模式识别和图像处理领域的研究热点之一。人脸识别克服了传统身份验证的缺陷,有着广泛的应用前景。但是人脸识别无论在二维还
概念格是形式概念分析理论中的核心数据结构,在信息检索、知识发现等方面得到了广泛的应用。概念格的约简使得形式背景中隐含知识的发现变得更容易,也使得这些知识的表示变得
合成孔径雷达(SAR)是一种利用微波反射信号成像的雷达,因其具有全天时和全天候工作的特点,在军事领域应用比较广泛。近年来,随着科技的发展和SAR的普及,SAR的应用越来越广泛
随着计算机的广泛普及和互联网的飞速发展,现实世界的信息呈指数级增长。一个需要迫切解决的问题就是如何从这些海量的信息中获取出人们所需要的特定信息。关系抽取是信息抽
使用管道运输燃气、石油已成为世界上主要运输方式之一,管道运输已遍布人们日常生活中各重要领域。中国城市燃气协会曾经在我国对近几年发生的燃气爆炸事故进行了调查:在所有
将概率图模型和一阶逻辑理论结合在一起,并用单一的简单形式表述是人工智能长久以来的一个目标,我们可以使用概率图模型来高效的处理不确定事务,还可以用一阶逻辑简洁的表示整个