受限表格识别系统的研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 1次 | 上传用户:yuanlaiyizhizailiula
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格识别是指利用计算机自动辨识印刷在纸或其他介质上的表格文档的过程。在学科上表格识别属于模式识别和人工智能的范畴,在应用上它是一种信息处理系统中高速自动输入方式,也是新一代计算机智能接口的一个重要组成部分。近年来,表格的自动输入、存储、管理已经成为文档智能处理领域的一个重要组成部分。表格识别技术引起了众多学者的关注,成为OCR领域中的一个研究热点。一方面,表格结构复杂多样,使得很难找到一种能良好识别任何表格的通用方法;另一方面,很多领域使用的表格,如银行、邮局、税务等,需要识别的通常是固定的某些表格单元。综合这两方面因素,我们设计并实现了一个受限表格识别系统。本文利用图像处理、模式识别等技术对受限表格识别问题进行了深入研究。目标是提高受限表格识别的正确率,以满足目前日益增长的智能表格处理的需求。详细地介绍了整个表格单元的提取过程:首先,生成表格结构描述文件,并具有灵活性和可扩展性的特点;然后,先对待识别表格进行倾角检测和校正,再根据描述文件局部检测表格线,准确定位表格单元;最后,对表格单元进行提取,这一步骤针对表格线与单元内字符有交叠的情况和单元内字符超出单元框线的情况,分别提出了基于距离加权的自适应字线分离算法,和分析连通域的方法,进行解决。保证了送入OCR识别之前的单元提取结果的正确性和完整性。同时,在每一步骤的设计上,进行了不同程度的算法优化,提高了系统的效率。实验结果表明,该系统流程对批量处理同类型表格取得了很好的效果。
其他文献
目的 观察Survivin、Smad4/dpc4、APC基因单独与联合表达情况,研究三种基因与大肠癌生物学行为的关系,探讨大肠癌相关基因检测能否成为早癌筛检的敏感方法。方法 采用免疫组织化
模块化多电平换流器(MMC)与平衡变压器相结合的潮流控制器(PFC),可节省传统牵引供电系统中的匹配变压器,满足高压大功率的应用。首先介绍了系统工作原理,重点研究了其中单相MMC背
本报讯 (记者 白 燕)银川市不断提升区域竞争力,全面加快现代服务业,着力建设区域性交通运输中心。今年全市客运车辆全部安装了GPS卫星定位系统,实现了对所有客运车辆运行状态的实
报纸
随着我国依法治国方略的顺利推进,全社会方方面面展开了法治宣传教育活动。大学生的法律文化知识、法律素养有了普遍的提高,学法、守法、用法、维法等行为也在不断增加。越来越多的大学生能够在自身权利和利益受到侵犯时,懂得拿起法律的武器来维护自身正当权益。但随着互联网的快速发展,网络带来的隐患也日益突显,热门讨论的电信诈骗案,芜湖大学生被骗学费等案件,这不仅威胁着大学生的生命安全,危害社会秩序,而且影响法治建
美育是整个教育体系中不可缺少的重要组成部分。而在美术教学中的审美教育更是担负着双重任务,一方面,它承担着培养学生专业素质的任务。另一方面,它在完善学生人格,提升学生综合
随着新能源技术的不断发展,逆变器由于在各种电源应用场合具有高可靠性的特点,因此在新能源领域中的地位越来越重要。而逆变器并联技术的使用,能够有效提高逆变电源系统的冗
胶质瘤是最常见的颅内原发性肿瘤,其中胶质母细胞瘤恶性程度高、预后差。目前手术、放疗、化疗的疗效不理想。三氧化二砷(Arsenic Trioxide,As2O3)是一种有效的肿瘤细胞凋亡诱导
在云计算的背景下,服务器的虚拟化对传统网络的数据迁移能力提出了非常高的要求。文章分析了当前非常典型的一种网络虚拟化技术—VXLAN技术,通过在三层IP网络之上建立基于数
随着“互联网+”时代的到来,信息传播的快捷、廉价,导致著作权人的权利受到了前所未有的挑战。本文援引北京精雕科技有限公司诉上海奈凯电子科技有限公司案,并根据“互联网+”时
目的:分离培养人外周血树突细胞(dendritic cell,DC),并利用人巨噬细胞集落刺激因子(granulocyte-macrophage colonystimulating factor,GM-CSF)基因及人肺腺癌细胞系SPC-A1 mRNA