多文章共存的复杂版面文档的逻辑结构识别

来源 :北京大学 | 被引量 : 0次 | 上传用户:daxian005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字图书馆和跨媒体出版的高速发展,使得出版领域的数字资产具有新的生存价值和周期。为了方便地管理、存储、检索、利用、交易、改写、补充、整理和阅读媒介依赖的信息资源,世界范围内的研究与开发人员对图像版面文档的数字化和结构化的研究表现出极大的兴趣,而以利用知识把数据转化为信息为任务的文档理解成为数字化和结构化的关键技术。其中,逻辑结构恢复是版面文档理解工作中的一个核心问题,特别是面向多文章共存的复杂版面的逻辑结构恢复以其样式和布局的多样性、排版区域的不规则性及信息共存的密集性等特点成为文档理解中的一个难点。但目前这方面还缺少有效的数据及任务描述手段和算法,对于版面潜在信息的利用仍不充分,大多停留在浅层版面信息(如位置关系、字体、栏宽、样式等)的层面上,而对真正体现逻辑结构的内容信息的利用是值得研究的。 本文给出了多文章共存的复杂版面信息及逻辑结构恢复问题的形式化描述,结合空间推理、模式识别、图论、统计模型和自然语言处理等理论和技术,针对多文章共存的复杂版面逻辑结构识别中的不同任务提出了3个不同的数学模型:用二分图最大权匹配模型分别解决文字块之间阅读顺序的连接及标题-正文关联问题,其中第一个连接包括同一页面内由于分栏和互斥图及跨页续排两种因素导致的阅读顺序不连续问题;统计模型来解决文章正文聚合问题和用有序树模型解决不规则区域的文字流顺序问题。 本文首先对多文章共存版面中各正文文字块之间的阅读顺序进行研究,提出了在空间拓扑关系的基础上、基于图论匹配思想、并通过自然语言处理技术对缺失的阅读顺序关系信息进行恢复与重构的计算方法。 其次,针对多文章共存版面的逻辑结构恢复的重要任务:文章正文聚合、逻辑部件关联匹配和续排连接等任务逐一进行处理。 本文最后介绍了非Manhattan排版区域阅读顺序构造模型及算法。
其他文献
随着移动互联网与物联网的技术的飞速发展,人类收集的数据量呈指数级增加。分布式计算已经成为大数据处理、分析过程中不可或缺的关键技术。分布式计算通过将计算任务分解为
指纹识别由于具有唯一性、可靠性,在安全领域得到了广泛的应用。本文综合利用数字图像处理、模式识别、计算智能等方面的知识,对指纹图像分割与增强问题、指纹细节点提取与验
中国教育科研网(CERNET)经过10年的发展,已经成为中国互联网的重要组成部分。在教育部组织实施“西部大学校园计算机网络建设工程”中,受益于该项工程的西部地区152所高校校园
本文对网络计算机操作系统进行了深入的分析与研究,提出了适合于网络计算机的梯形结构模型,并在北大众志网络计算机的硬件基础上对该模型进行了实际验证,即使用动态束系统调用机
传统工作流管理系统的设计从提供功能齐全的工作流服务角度出发,不可避免地导致了系统架构极为庞大,系统的复杂性也随着增大。同时传统的工作流管理系统提供的功能是以集成的
Linux在消费类电子、工控、电信等嵌入式领域得到广泛应用。开发者希望通过对Linux进行实时化改造,满足另外一些嵌入式实时应用需求。替代那些价格昂贵、内核源码不公开、难
数据仓库中存放着海量数据,基于数据仓库的查询和分析操作通常都比较复杂,如何对用户请求提供快速响应,是数据仓库面临的一个严峻挑战。并行处理技术、bitmap索引技术、实体化视
随着网络应用的不断扩大,对网络服务器性能的要求也越来越高,对比传统的高性能计算机,集群系统以其卓越的性价比和良好的可扩展性等特性,逐渐成为主流网络服务器。集群服务器由大
随着数字技术和计算机技术的发展,数字化已经成为当今信息社会发展的一个最显著特征和关键技术,广播电视进入了由模拟电视向数字电视转换的跨越年代。数字电视视频服务器是构建
学位
教学工作是学校的中心工作,教师教学质量评估是教学管理的重要环节,是提高高校整体教学质量和办学效益的重要手段。随着高校规模的迅速扩大和教育体制的不断改革,教学评估工作中