复杂表格文档图像的模板识别与提取

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:sea37
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的发展,越来越多的组织机构开始构建信息化系统以实现业务流程的无纸化处理,但涉及跨机构的协同业务时,由于保密等因素的限制,跨机构的信息化系统构建困难,所以目前协同业务基本仍在使用纸质表格文档作为业务载体。机构收到业务表格后,需要将表格信息录入内部信息化系统,录入工作以往由人工进行,而由于近些年业务数量持续增加,人工录入无法满足业务时效性要求,所以纸质表格文档的自动录入愈发重要。自动录入主要包括文本识别和版式提取,目前文本识别技术已经成熟,所以重点在于提取表格的版式,表格根据版式可分为有框线表格与无框线表格。通过影印扫描后得到表格图像,本文的目的就是从表格图像中提取出表格的版式。为提取出表格版式,本文定义了表格模板,通过提取模板实现表格结构与内容的自动化识别。其中,有框线表格图像的模板提取分为三步,检测表格框线、还原表格结构、提取标题域,提取出的模板可用于对单张有框线表格图像进行分类;无框线表格图像的模板提取也分为三步,提取表格文字块、标注训练语料、训练构词模型,提取出的模板可用于验证单张无框线表格图像识别结果并纠正文字块划分错误。本文设计并实现了复杂表格文档图像模板识别与提取系统。首先,论文阐述了研究背景及研究意义,给出了论文的研究内容、主要工作及章节安排。其次,对表格识别及图像相似度分析的相关技术进行了调研。然后,分析了系统的需求、设计了系统的总体架构,根据功能划分将系统拆分为模板提取与管理子系统和表格识别与分类子系统,分别给出了两个子系统的系统框架图,对两个子系统进行了模块划分。接着分别对两个子系统进行了详细的设计与实现,其中对检测表格框线以及还原表格结构的算法进行了改进,并提出利用空间位置信息还原表格行列的渐进式投影法和对齐特征查找法。最后,分别对两个子系统进行了功能测试和效果展示,验证整体系统符合设计原则并达到预期效果。
其他文献
辛烷基酚聚氧乙烯醚(OP-10)作为非离子表面活性剂,具有优良的匀染、乳化、润湿、扩散,抗静电性能。使用OP-10配制微乳液时需要研究形成的稳定微乳区域范围,以便于为微乳法制
<正>融合爵士兴起于上世纪70年代,是爵士乐的分支之一。只要你有足够的创新意识和胆量,任何音乐都可以成为爵士乐的调料。如今所谓的融合爵士一般是指在爵士乐的基础上融合了
建国以来,我国中小学音乐教材建设有了长足发展,特别是随着《音乐课程标准》的制定、颁布,各类音乐教材相继出版。无论是在教材编写理念上还是在教材本身的质量上都较以前有
我们的双手天生就有弱点:长短不一,力量不匀,4.5指不够灵活、相互牵制不独立,《哈农》是解决这些问题的很好的教材。在钢琴教学中,《哈农》具有篇幅短小、规律性强,便于学习
本文通过介绍钢琴录音的一些基本原理和基本技术,阐述了在钢琴录音过程中怎样利用声场及传声器合理的配置及组合,准确的定位录音效果,运用最为有效的方法录出自然而又理想的
目的:探究分析针刺与TDP治疗腰背肌筋膜炎的治疗效果。方法:选取2015年1月至2016年2月于本院住院治疗的腰背肌筋膜炎患者110例为研究对象,对所有患者采用针刺与TDP治疗的方式
简要介绍静脉药物配置中心的潜在职业危险及防护措施。
鄂伦春人与火有着深厚的不解之缘,自古以来就有祭祀火神的习俗,长期以来对火神的崇拜和祭祀演变为鄂伦春人重要的节日——"古伦木沓"节。在生产生活方式斗发生了巨大变革的今
我国近代辛亥革命时期,资产阶级革命派曾成功的运用教育这件武器,为他们的革命服务,本文就此作专门论述。主要阐述本世纪初以孙中山为首的资产阶级革命派,把资产阶级革命纲领
在西沙群岛琛航岛一井晚第三纪生物礁中发现了9属43种造礁钙藻和9个生物化石群落,与在南海北部陆架珠江口盆地惠州33-1-1井发现的7属16种造礁钙藻,7个生物化石群落〔〕及在莺歌海—琼东南盆地