论文部分内容阅读
在文档版面分析中,采用一些数值化参数定义文本行和文本区域(如字符与字符的间隔和行与行的间隔),但只有在形成文本行和文本区域后才能确定这些参数的值。这类似先有鸡还是先有鸡蛋的问题,可以通过自适应重组策略解决。这个策略大致分为三步:第一步,根据最初的参数值将一些基本图像成分分组,组成预备的文本行和文本区域;第二步,根据已分好的小组推敲对参数值的评估;第三步,根据重新确定的参数值拆分或合并已存在的分组,形成新的分组。本文运用上述策略分析时,同时存在水平文本行和垂直文本行的中文文档。使用这种方法可以成功地获得结果