文档版面识别技术的研究及在SEAS系统中的应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:beckyccjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
SEAS超级电子文档系统是由东北大学软件中心研究开发的,专门用于各种办公文档、工程图纸、文书档案、图片资料、各种图书资料等知识和信息进行计算机管理的综合系统。它集成了大型数据库管理、图像处理、网络存储等功能,是用户知识资产管理的理想平台。 文档的版面识别技术是版面分析的一个组成部分,版面分析技术又是数字图像处理技术的重要技术之一。文档版面的倾斜角度检测在文档图像检索系统以及绝大多数的OCR(OpticaiCharacterRecognition即光学字符识别系统)中都是预处理的重要环节,也是SEAS系统具备的重要功能之一,对系统的性能有很大的影响,在自动化的文档处理,自动扫描仪等领域中将有广泛的应用前景。 本文基于SEAS项目的应用需求,针对于在版面识别过程中出现的对文档图像倾斜角度的检测与校正问题进行了系统研究,运用基于最小二乘法的倾斜检测与校正算法很好地解决了SEAS系统中关于文档图像的倾斜与校正问题,为文档版面的识别创造了有利条件。本文首先介绍了版面分析技术,包括噪声的消除和文档边界的平滑处理。其次,详细介绍了文档图像倾斜校正若干常见的算法,并比较各自的特点。其中包括基于投影图的方法、交叉相关算法、基于Hough变换的方法、最近邻簇方法、基于Fourier变换的方法等。再次,详细介绍了基于最小二乘法的文档图像的倾斜检测与校正算法,该算法由文档图像的整体结构出发,通过边界的去除噪声和基线拟合得到文档图像的倾斜角度。并应用一元线性回归模型分析特征点。在SEAS项目中,大量的实验证明该算法具有准确率高、鲁棒性好、运行速度快的特点。最后本文在总结了项目中出现的问题基础上提出了改进技术和展望。
其他文献
随着网络技术的发展,现代远程教育已经成为教学中越来越重要的组成部分。但是在远程教育中,学生和教学机构在地理上处在不同的位置,这使得一些实验很难再到实验室去进行了。因此
学位
嵌入式设备是数字化时代的一大主流产品。嵌入式软件是数字化产品的核心,而嵌入式操作系统和开发工具又是嵌入式软件的基础和龙头。在嵌入式软件开发过程中,调试工作最终需要
数据分类是按照一组数据对象的特征给出数据对象数学划分的过程,已经在统计学、机器学习、神经网络以及专家系统中被广泛研究。近来,它又成为数据挖掘的一个重要研究方面。实际
目前,校园网络正在飞速地发展,这就造成网络中服务器剧增,应用系统急速增加。另外,由于许多应用系统都是各自管理自己的用户,使得同一用户在使用上网、收邮件,选课和网上学习等不同
近年来,由于我国汽车行业的迅猛发展,汽车配套零部件生产厂家为提高产量,大量采用新的生产技术,不断扩大生产能力和提高生产自动化程度。起动机性能自动测试系统就是适应汽车起动
尺寸标注是工程制图过程中相当重要的一环。没有尺寸标注的产品设计是完全没有意义的,是根本不可能加工出产品的。统计表明,尺寸标注工作占整个工程图纸绘制工作量的 40%-60%。当今的一系列的计算机辅助设计软件,典型的如 Autodesk 公司出品的ACAD 软件,提供了强大的绘图功能,使得工程制图的绘图速度和绘图质量得到很大的提高。然而,图形绘制初步完成后,对于尺寸标注系统的信息检查,仍然依赖于设计师
随着信息技术的不断发展,人们收集了大量的数据,迫切的需要将数据转化为信息。人们对信息技术的期望从基本数据处理到关系信息系统到辅助战略决策的决策支持应用。基于数据仓库
网格是近年来出现的一组架构在互联网络服务之上的新兴技术,旨在支持虚拟组织的资源共享与协同工作。人们承认网格是下一代软件技术之一,但对网格“革命性体系结构”的构成、网
本文主要实现了一个基于支持向量机的中文网页内容的自动分类系统,介绍并实现了局域网内通过网卡截获网络数据报并对数据报进行重组,生成了HTML页面,再结合HTML页面内容提取技术