印刷体中文文档中表格和汉字的识别研究

被引量 : 0次 | 上传用户:Jul-83
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来,相互交流的信息内容越来越丰富,一个中文信息文档中不仅会含有中文、英文、各种各样的公式以及表格和图形图像等内容。因此,快速而准确的将信息中各种内容输入到计算机是信息处理的一个关键问题。中文文档识别系统就是为了实现信息的识别输入以及转换信息文档格式而设计出的产物。而目前的识别系统并不能实现公式的识别输入,设计一种含有公式识别功能的中文文档识别系统,对信息文档的处理有着重要的实用价值和理论意义。本课题在已有的公式识别印刷体中文文档识别系统基础上,对该系统进行了功能上的完善和补充。主要工作如下:首先,对扫描得到原始文档图像进行预处理。在进行图像预处理过程中的二值化时,我们做了基于直方图谷点门限分割法和基于Ostu算法的详细的分析的和比较,最终由于Ostu算法的效果和运算速度较优,在此应用的是Ostu算法。其次,待识别文档被扫描成图像的过程中不可避免地会出现一定的倾斜。本文针对表格文档图像应用了基于游程的倾斜表格图像的检测和反变换的方法进行旋转,实现了对表格文档图像的倾斜角检测及校正。对于角度较小(-5°-5°)的情况,运用上述方法能达到快速倾斜校正的目的,取得更好的效果。然后,是对表格的检测和提取。在这里应用的是基于数学形态学变换的表格检测和提取算法,并对提取的表格线进行细化和直线拟合最终实现了对表格的识别。通过实验得出本文采用的方法对表格的检测和提取的效果比较理想。最后,是汉字识别的部分,采用一种多特征提取并结合多分类器集成的方法对汉字的字符识别,在对汉字进行细化和归一化的基础上,并把一级汉字字库扩展为二级汉字模板字库。本文主要针对比较正式、规范的书籍、报刊和杂志的图像进行采集和识别。所研究的主要内容是在以往同课题组同学的基础上对印刷体中文文档识别系统的功能进行完善。重点是实现了对表格的检测和提取,并扩充了相应的汉字库。与成熟的OCR技术相比,解决了无法实现自动处理印刷体文档中的表格识别问题,是含有识别公式技术的印刷体文档识别系统,它提高了原始文档的利用率,并方便了公式的录用、查询等,对科技的发展和传播有深远意义。
其他文献
中、英、日三种网络语言中,都吸收了大量外来语,它们之间既有相同点,又有不同点。三种网络语言在各自的发展过程中相互影响、相互渗透。这种现象,既反映了全球一体化进程,也
面对本世纪的国际和国内经济、政治、文化发展背景,如何对青少年进行教育,特别是思想道德教育,使其健康成长,关系到家庭幸福和社会稳定,关系到国家富强和民族繁荣。青少年思
从双语研究的词汇、句子、认知过程、二语学习的年龄和掌握二语的熟练程度的视角进行综述性研究,可以发现,从20世纪六七十年代到今天,双语表征研究视角在不断地发展。发展的
在论述钢筋混凝土耐久性实验的重要意义的基础上 ,分析了影响钢筋混凝土耐久性问题的主要因素 ,对目前常用的耐久性实验方法进行了综合评价 ,指出人工气候加速耐久性老化以及
中学数学竞赛是中学数学的有益补充,它对培养学生学习数学的兴趣及训练思维方面有着不可替代的作用.本研究在前人研究的基础上,以文献分析的研究方法为主,剖析典型例题,归类
微弱信号检测技术是随着工程应用不断发展的,用于检测强噪声背景中微弱信号的一门新兴的技术学科。随着社会及科技的发展,微弱信号检测技术已经在物理、化学、天文、生物、医
许多实验已表明静磁场对肿瘤、骨组织、循环系统、DNA 合成等有影响。总结了近年来对静磁场生物效应理论和实验研究两方面的进展,指出其具有不确定性、门槛特性、多态性、多因素
社会经济的不断发展,城市化的不断促进,有限的城市用地推进了城市地下工程的开发和发展。在城市地下工程开发进程中,轨道交通的发展尤为突出,今后我国将有40余座城市拥有轨道
绿豆在陕西种植面积39.5万hm^2,年产量3.2万t,占全国种植面积的4.2%,主要集中在延安和榆林两个地区。绿豆子粒含有丰富的营养成分,含有人体需要的钙、磷、铁等矿物质。中医认
以全桥LLC谐振变流器作为研究对象,在对LLC谐振变流器的时域工作模式进行深入分析的基础上,建立各个模式的状态方程以及模式间的边界条件,并进一步提出了一种简化的时域分析