论文部分内容阅读
SEAS超级电子文档系统是由东北大学软件中心研究开发的,专门用于各种办公文档、工程图纸、文书档案、图片资料、各种图书资料等知识和信息进行计算机管理的综合系统。它集成了大型数据库管理、图像处理、网络存储等功能,是用户知识资产管理的理想平台。
文档的版面识别技术是版面分析的一个组成部分,版面分析技术又是数字图像处理技术的重要技术之一。文档版面的倾斜角度检测在文档图像检索系统以及绝大多数的OCR(OpticaiCharacterRecognition即光学字符识别系统)中都是预处理的重要环节,也是SEAS系统具备的重要功能之一,对系统的性能有很大的影响,在自动化的文档处理,自动扫描仪等领域中将有广泛的应用前景。
本文基于SEAS项目的应用需求,针对于在版面识别过程中出现的对文档图像倾斜角度的检测与校正问题进行了系统研究,运用基于最小二乘法的倾斜检测与校正算法很好地解决了SEAS系统中关于文档图像的倾斜与校正问题,为文档版面的识别创造了有利条件。本文首先介绍了版面分析技术,包括噪声的消除和文档边界的平滑处理。其次,详细介绍了文档图像倾斜校正若干常见的算法,并比较各自的特点。其中包括基于投影图的方法、交叉相关算法、基于Hough变换的方法、最近邻簇方法、基于Fourier变换的方法等。再次,详细介绍了基于最小二乘法的文档图像的倾斜检测与校正算法,该算法由文档图像的整体结构出发,通过边界的去除噪声和基线拟合得到文档图像的倾斜角度。并应用一元线性回归模型分析特征点。在SEAS项目中,大量的实验证明该算法具有准确率高、鲁棒性好、运行速度快的特点。最后本文在总结了项目中出现的问题基础上提出了改进技术和展望。