表格识别系统应用中若干问题的研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:coolfish_dj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格是一种常见的文档形式,广泛地应用于人们的日常工作和生活之中.随着计算机技术的发展,利用计算机获取、存储和管理数量巨大的表格信息已越来越成为人们关注的焦点.表格识别系统已开始成为替代人工录入、自动获取表格信息的一种有效工具.针对现有表格识别系统在应用中遇到的一些问题,该文对表格与图形的鉴别、彩色票据图像表格框线的去除、灰度与彩色表格图像的倾斜角度检测等几个问题进行了深入研究,并取得如下一些成果:1、现有系统中,鉴别表格与图形的误判率较高.该文提出了一种根据表格框线和单元信息来区分表格与图形的方法,该方法结合表格的结构特征,提出了作为表格要素的表格框线和表格单元所必须满足的若干约束条件,通过验证每个条件是否得到满足来区分表格与图形.实验表明,该方法能有效地降低对表格与图形的误判率.2、字线交迭严重干扰对字符的切分与识别.以前的基于二值图像的表格框线去除算法,只能在一定程度上排除表格框线对字符识别的干扰.随着计算机运算速度和存贮容量的迅速提高,表格识别系统的扫描输入图像开始采用灰度和彩色图像.该文提出了一种基于彩色图像的表格框线去除算法,由于利用了彩色和灰度信息,能更好的排除表格框线对字符识别的干扰.该方法目前已成功地应用于银行票据识别系统中.3、为解决灰度和彩色票据图像倾斜问题,该文提出了一种根据扫描时产生的黑色边缘来检测扫描图像倾斜角度的方法.该方法根据检测出的四条边缘拟合直线来确定图像倾斜角度.实验表明,该方法具有很快的速度和很高的正确率,且适应于所有白色(浅色)矩形纸张扫描的灰度和彩色图像.目前,该方法已用于彩色银行票据和灰度名片图像的倾斜校正与去除黑边.
其他文献
近年来,构件化操作系统成为研究热点,而对于嵌入式领域,因其软硬件丰富多样,对效率、规模要求严格等原因,需要操作系统能够非常灵活的定制,适应软硬件的变化,能够量体裁衣、
关联规则挖掘用于发现大数据集中数据间的关联关系,是数据挖掘技术中重要研究方向之一.关联规则兴趣度可以发现有趣的规则或模式.该文从客观和主观两方面讨论了目前常见的一
数据挖掘是从大量的数据中提取隐含的、事先未知的、并且潜在有用知识的技术,是当前数据库和人工智能研究领域的热点之一。中国银行马鞍山分行数据挖掘模块使用了基于OLAP的数
基于工业控制与检测的生产质量管理系统,是目前工控界的研究重点,随着计算机技术、传感技术、光电技术的飞速发展,越来越多的最先进技术应用到了工控领域.建立在图像处理之上
入侵检测是一种非常重要的网络安全技术,但是随着带宽飞速发展,流量压力不断增加,传统基于网络的入侵检测系统(NIDS)面临着高速网络环境带来的挑战.采用处理机群来代替原有的
随着计算机技术、网络技术的发展,信息产业得到飞速发展,各种信息的保护也变得十分重要.加密卡就是采用硬件实现加解密运算的一种计算机板卡.加密卡中除了加密算法的选择和硬
本论文所研究的"110接报警情地图分析系统"既是GIS技术与公安系统具体应用的很好结合.该系统的建成,不仅为海淀区乃至北京市公安系统在综合采用现代技术和科技新发展、提高管
进入二十一世纪,以高通量基因测序为代表的新一代测序技术,在医疗、制药及育种等多个领域得到快速发展及应用,催生了未处理的基因数据呈爆炸性增长。基因序列比对是基因测序流程
软件体系结构(Software Architecture,SA)研究作为软件工程领域中的一个重要组成部分,受到越来越多的关注.研究者和实践者逐渐达成了基本共识:获得正确的体系结构是系统开发
遥感分类是遥感图象分析与处理的核心内容之一.随着遥感光谱分辨率的不断提高,目前对遥感分类的研究也从传统的数理统计分类逐渐转向以人工神经网络、专家系统为代表的人工智