基于特征的表格内容识别的研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:yanmu1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光学字符识别(OCR)是以扫描仪等光学仪器得到的电子版文档作为处理对象,并对其信息进行分割和识别的一种技术。表格是一种格式简明、规范,信息高度集中的体现形式,便于人们快速准确地了解文档的内容,在生活中得到广泛应用。但是表格内容繁多,人工录入表格信息不仅耗费时间,而且容易出现差错。通过OCR技术实现表格内容的识别,不仅能提高工作的效率,而且大大降低了信息录入的错误率。本文主要针对表格内容的识别方法进行研究,包括印章的识别和表格文档的识别。本文基于印章的特征提出了通过映射将印章图像识别转为文字识别的方法。印章具有一系列显著的特征,如大多数印章的文字以圆心为中心呈环形分布,印章的颜色深浅和文字方向受人为因素的影响较大等,这些都增加了特征提取的难度,从而导致印章的识别效果不佳。本文首先对印章进行定位,并通过Gamma矫正增强印章的对比度使印章的纹理更加清晰;然后利用傅里叶变换将印章提取出来,再把印章从圆形映射成长方形;最后通过LeNet网络模型将印章图像识别转为文字识别。在对印章的识别效果的测试中,本文使用3 755个常用汉字,分别以五种字体经过数据增强生成印章数据集,并进行模型训练。实验结果表明,本文所提出的方法的印章文字识别正确率达到96.6%。本文基于表格框架的特征提出了通过交叉点类型及其关系定位表格单元格的方法。首先采用Hough变换提取出表格图像中的表格框架,然后使用细化算法对表格框架进行细化;其次,根据表格框架中的交叉点类型及各交叉点之间的关系,将表格中的各个单元格提取出来;最后,对于每个单元格的文本,本文使用Tesseract进行识别,并将识别的结果写回表格框架,从而达到对表格复现的目的。在对表格内印刷体文字的识别中,本文使用Tesseract官方的印刷体中文字库,并结合了借助jTessBoxEditor生成的本地字库,对表格的各个单元格文本分别进行识别,正确率达到87.4%。
其他文献
水墨元素是我国传统文化艺术的重要内容,是我国现代包装设计的灵感源泉。本文首先探讨了茶叶与水墨画的历史渊源,分析了现代茶叶包装设计对水墨元素的应用形式,而后对水墨元
采用溶液聚合及相反转工艺合成了水稀释性丙烯酸树脂,利用氮丙啶和3-缩水甘油醚氧基丙基甲基二乙氧基硅烷(KH-578)分别对其进行了室温交联改性。探讨了溶液聚合的主要影响因素
本文以中国改革开放和经济发展为背景,对改革开放以来江苏省对外经贸体制与政策变革进行了回顾与评述,对江苏省对外经贸发展的历程、现状与特征进行了论述,并对世纪之交江苏省对
职业举报人通过行使举报权而“要挟”商家,为达成谋利目的而故意设置送达障碍。职业举报人的这种行为无其他可增益于社会的原因,结果却导致行政资源浪费、执法效率消减,属于
随着互联网金融时代的到来,各家上市公司每天通过信息披露网站发布海量的公告,公告中蕴含的信息对投资分析、企业利益、市场影响和社会经济资源分配都起着至关重要的作用。信息披露公告本身是一类非结构化文本,其信息分布零散且冗余信息干扰较大。传统的信息抽取系统有诸多局限性,难以快速、高效、准确地抽取到公告的关键信息。本文面向上市公司三类信息披露公告,设计了一种结合文档结构与深度学习模型的信息抽取系统。具体如下
目的:分析住院老年患者发生吸入性肺炎的相关危险因素,探讨有效的预防措施。方法:选取2013年1月-2016年6月在我院诊治的老年患者615例,回顾性分析患者的临床资料,包括性别、年龄、
从总体上看,当前我国儿童的生态道德教育不理想,效果不明显。我国儿童的生态道德认知、生态道德情感和态度、生态道德行为还未体现出知一情一意一行的规律,具有较强的不确定性。
中日文同形词是我们学习日语的一大难点。只看到意思相同,而忽视中日文不同点的误用例屡见不鲜。可以从表记、含义、褒贬色彩、词性、语感强弱以及语相六个方面叙述中日文同形
“文化认同与和谐社会建设”和增强中华民族凝聚力有着密切关系.今年4月2-3日,广东中华民族凝聚力研究会举办了“文化认同与和谐社会建设”学术座谈会.本刊编发了大部分与会
目的:提高对婴幼儿化脓性关节炎的认识。方法:回顾性分析笔者所在医院近2年收治的28例化脓性关节炎的临床表现、实验室及辅助检查和治疗经过。结果:临床主要表现为发热、畏寒和