文本图像处理与表格图像识别算法研究

来源 :解放军信息工程大学 | 被引量 : 4次 | 上传用户:yangbin0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着通信技术与信息处理技术的迅猛发展,越来越多的纸质文档通过数字采集设备转换成文本图像,从而使文本图像数据能够快捷的在网络、卫星、传真通信信道中传输,因此,文本图像已逐渐成一个重要的信息来源。但是,现有的文本图像处理系统自动化程度低,且通用性不高,无法满足文本图像处理广泛性与实时性的要求。因此,研究如何对文本图像进行分析与处理,以便高效、快捷的获取文本图像的信息,是一项十分有意义的研究课题。本文在总结已有研究成果的基础上对文本图像的识别检索、预处理、版面分析和表格图像识别展开研究。所做的主要工作如下:1.依据图像的灰度分布和结构特征差异,对基于图像信息度量的文本图像识别检索算法进行改进,构造一种基于信息度量与Radon变换的文本图像识别检索算法。该算法综合利用文本图像与连续色调图像的灰度分布与结构特征差异进行文本图像的识别检索。实验结果表明,所构造算法可有效降低文本图像识别检索的误识率。2.对基于Hough变换的文本图像倾斜检测算法进行改进,给出一种基于多分辨率Hough变换的文本图像倾斜检测算法,该算法通过对不同分辨率的图像进行不同精度的Hough变换,获得文本图像倾角值。实验结果表明,所给算法能够在确保检测精度的同时,大幅提高倾斜检测的速度。3.提出一种基于连通域的版面分割算法,该算法结合数学形态学、区域生长等方法对文本图像进行分割,对各式矩形版面分割效果良好。综合文本图像区域识别已有的研究成果,提出一种基于空间域特征的版面分类算法,该算法提取分割所得区域的各类空间域特征,并使用支持向量机作为分类工具,将版面区域分为文本、表格、图形和图像四类。实验结果表明,所提算法能较准确地识别不同区域,具有较强的实用性。4.从文本图像分类的角度出发,提出一种基于框线投影特征和点特征的表格图像识别算法。该算法将版面分割与表格区域识别相结合,通过提取版面分割所得区域的框线投影特征和点特征,使用支持向量机作为分类工具将版面区域分为表格区域与非表格区域,并以文本图像中是否含有表格区域以及表格区域面积占版面有效面积的比例为依据将文本图像分为表格图像与非表格图像。经实验验证,该方法具有识别准确率高,实用性强等优点。
其他文献
做好高职院校贫困学生就业工作,不仅是高等教育持续健康发展的需要,还关系到国家和社会的稳定,对于促进教育与经济社会协调发展具有重要意义。高职院校贫困学生总体上表现出
采用STC12C5A60S2单片机控制超声波测距模块和减速步进电机,利用超声波的反射特性进行360°范围的距离测量,结合温度补偿算法计算系统到被测物体的距离和相对速度。系统使用n
一般认为,人类肿瘤的80%—9%是由环境中的各种化学因素引起的。当前直接应用于食品的化学物质如食品添加剂以及间接与食品接触的化学物质如农药及污染物日益增多,人类长期接触
中国传统的音乐结构分类概念,虽能确定乐曲的基本结构形式,但忽视了局部结构的微观分析。本文结合中西方音乐曲式分析的方法,分析藏族传统音乐的曲式结构。
<正>经济的全球化和一体化使国际社会的交流日趋密切。交往过程中的信息传递对交际成功与否至关重要。每个民族都有独具特色的文化。鲜明的文化特色赋予了文化负载词生存的空
在国学热的推动下,以传统文化为内容的综艺节目受到大众的热捧。面临激烈的媒体竞争环境,电视媒体找到了属于自己的位置,兼顾传播传统文化重任与社会效益。传统文化是中华民
本刊讯(记者韩阳)近日,有着“东方卫斯理”之称的悬疑作家那多携手新世界出版社推出其新作《亡者低语》,这本新书属于那多阔别三年的“灵异手记”系列,这也标志着一直以来广
目的:探讨SWOT分析法在感染科低年资护士管理中的实践应用效果。方法:通过对感染科低年资护理人员管理中的优势、劣势及外部环境的机遇和威胁进行综合评估,构建SWOT矩阵,依据
随着现代社会的不断发展,人们所面临的能源问题也愈发严峻。化石能源是现代工业体系使用的主要能源。但传统的化石能源属于不可再生能源,必将面临枯竭的危险,况且化石燃料在
花球舞蹈啦啦操作为舞蹈啦啦操的一个子项目,发源于美国的篮球赛场上,随着全球文化的融合发展,以及国内“啦啦操进校园”政策的普及,花球舞蹈啦啦操已然作为了一个竞赛项目,为学生及其广大群众的健身娱乐生活注入了新的血液。本文通过对《2010-2013年全国啦啦操竞赛规则》、《啦啦操竞赛规则(2014年版)》的分析与对比,阐明新规则下花球舞蹈啦啦操的训练方向和维度变化。本文立足于全国啦啦操联赛总决赛花球舞蹈