论文部分内容阅读
随着信息的传播和交换的迅猛增长,将以纸张为介质的文档信息自动转换成数字形式成为一项十分有意义的工作。为此,开发一种高效的文档信息处理系统成为一项迫切的任务。我们提出的文档信息处理系统包括了复杂文档的版面分析、版面理解、汉字识别、公式识别、表格处理、版面重构几个功能模块。本文主要对版面分析、汉字识别和公式识别三个方面进行了研究。其中,公式识别是我们讨论的重点。在版面分析中,采用基于最近邻连接强度和行列可信度的自底向上的版面分析算法,分割出图像区域、表格区域和文本区域;在汉字识别模块中,采用回溯切分方法切分出字符段,计算合并差异度与特征字典比较,通过引入汉字的拒识类,从而实现了公式的定位;将定位后的数学公式送入公式识别器,在公式识别器中采用基于连通域搜索的字符分割方法和模板匹配方法对字符识别,对于识别出的字符,再采用基于特征字符的结构分析方法,从而将二维的数学公式转化为一维的Word EO域语句。经过上述的几个步骤之后,系统输出为纯文本。汉字和Word EQ语句的顺序就是原文本中的汉字和公式的顺序。该系统很好地提取文档中的文本区域,通过比较现有的公式定位方法,该系统的方法更加迅速、准确,并通过结构分析前的预处理,提高了公式的识别率。