论文部分内容阅读
随着数字图书馆和跨媒体出版的高速发展,使得出版领域的数字资产具有新的生存价值和周期。为了方便地管理、存储、检索、利用、交易、改写、补充、整理和阅读媒介依赖的信息资源,世界范围内的研究与开发人员对图像版面文档的数字化和结构化的研究表现出极大的兴趣,而以利用知识把数据转化为信息为任务的文档理解成为数字化和结构化的关键技术。其中,逻辑结构恢复是版面文档理解工作中的一个核心问题,特别是面向多文章共存的复杂版面的逻辑结构恢复以其样式和布局的多样性、排版区域的不规则性及信息共存的密集性等特点成为文档理解中的一个难点。但目前这方面还缺少有效的数据及任务描述手段和算法,对于版面潜在信息的利用仍不充分,大多停留在浅层版面信息(如位置关系、字体、栏宽、样式等)的层面上,而对真正体现逻辑结构的内容信息的利用是值得研究的。
本文给出了多文章共存的复杂版面信息及逻辑结构恢复问题的形式化描述,结合空间推理、模式识别、图论、统计模型和自然语言处理等理论和技术,针对多文章共存的复杂版面逻辑结构识别中的不同任务提出了3个不同的数学模型:用二分图最大权匹配模型分别解决文字块之间阅读顺序的连接及标题-正文关联问题,其中第一个连接包括同一页面内由于分栏和互斥图及跨页续排两种因素导致的阅读顺序不连续问题;统计模型来解决文章正文聚合问题和用有序树模型解决不规则区域的文字流顺序问题。
本文首先对多文章共存版面中各正文文字块之间的阅读顺序进行研究,提出了在空间拓扑关系的基础上、基于图论匹配思想、并通过自然语言处理技术对缺失的阅读顺序关系信息进行恢复与重构的计算方法。
其次,针对多文章共存版面的逻辑结构恢复的重要任务:文章正文聚合、逻辑部件关联匹配和续排连接等任务逐一进行处理。
本文最后介绍了非Manhattan排版区域阅读顺序构造模型及算法。