多文章共存的复杂版面文档的逻辑结构识别

来源 :北京大学 | 被引量 : 0次 | 上传用户：daxian005

【摘要】

：

随着数字图书馆和跨媒体出版的高速发展，使得出版领域的数字资产具有新的生存价值和周期。为了方便地管理、存储、检索、利用、交易、改写、补充、整理和阅读媒介依赖的信息资

【作者】

：

贾娟

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2005年期

【关键词】

：

多文章共存版面文档理解逻辑结构二分图非Manhattan区域

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数字图书馆和跨媒体出版的高速发展，使得出版领域的数字资产具有新的生存价值和周期。为了方便地管理、存储、检索、利用、交易、改写、补充、整理和阅读媒介依赖的信息资源，世界范围内的研究与开发人员对图像版面文档的数字化和结构化的研究表现出极大的兴趣，而以利用知识把数据转化为信息为任务的文档理解成为数字化和结构化的关键技术。其中，逻辑结构恢复是版面文档理解工作中的一个核心问题，特别是面向多文章共存的复杂版面的逻辑结构恢复以其样式和布局的多样性、排版区域的不规则性及信息共存的密集性等特点成为文档理解中的一个难点。但目前这方面还缺少有效的数据及任务描述手段和算法，对于版面潜在信息的利用仍不充分，大多停留在浅层版面信息(如位置关系、字体、栏宽、样式等)的层面上，而对真正体现逻辑结构的内容信息的利用是值得研究的。本文给出了多文章共存的复杂版面信息及逻辑结构恢复问题的形式化描述，结合空间推理、模式识别、图论、统计模型和自然语言处理等理论和技术，针对多文章共存的复杂版面逻辑结构识别中的不同任务提出了3个不同的数学模型：用二分图最大权匹配模型分别解决文字块之间阅读顺序的连接及标题-正文关联问题，其中第一个连接包括同一页面内由于分栏和互斥图及跨页续排两种因素导致的阅读顺序不连续问题；统计模型来解决文章正文聚合问题和用有序树模型解决不规则区域的文字流顺序问题。本文首先对多文章共存版面中各正文文字块之间的阅读顺序进行研究，提出了在空间拓扑关系的基础上、基于图论匹配思想、并通过自然语言处理技术对缺失的阅读顺序关系信息进行恢复与重构的计算方法。其次，针对多文章共存版面的逻辑结构恢复的重要任务：文章正文聚合、逻辑部件关联匹配和续排连接等任务逐一进行处理。本文最后介绍了非Manhattan排版区域阅读顺序构造模型及算法。

其他文献

基于Spark的分布式协同过滤及工具研究

随着移动互联网与物联网的技术的飞速发展,人类收集的数据量呈指数级增加。分布式计算已经成为大数据处理、分析过程中不可或缺的关键技术。分布式计算通过将计算任务分解为

学位

Spark协同过滤分布式计算

指纹识别系统算法研究

指纹识别由于具有唯一性、可靠性,在安全领域得到了广泛的应用。本文综合利用数字图像处理、模式识别、计算智能等方面的知识,对指纹图像分割与增强问题、指纹细节点提取与验

学位

指纹识别系统坎尼算子非线性扩散滤波器特征提取指纹匹配

基于SNMP的校园网网络管理系统研究与实现

中国教育科研网(CERNET)经过10年的发展，已经成为中国互联网的重要组成部分。在教育部组织实施“西部大学校园计算机网络建设工程”中，受益于该项工程的西部地区152所高校校园

学位

互联网络通信协议校园网网络管理简单网络管理协议SNMP

基于梯形结构的网络计算机操作系统的研究与实现

本文对网络计算机操作系统进行了深入的分析与研究，提出了适合于网络计算机的梯形结构模型，并在北大众志网络计算机的硬件基础上对该模型进行了实际验证，即使用动态束系统调用机

学位

操作系统网络计算机梯形结构

基于Web的轻量级工作流管理系统的研究与实现

传统工作流管理系统的设计从提供功能齐全的工作流服务角度出发,不可避免地导致了系统架构极为庞大,系统的复杂性也随着增大。同时传统的工作流管理系统提供的功能是以集成的

学位

轻量级工作流管理系统流程定义语言目录服务LDAPWeb应用

嵌入式Linux实时性能及性能测试方法研究

Linux在消费类电子、工控、电信等嵌入式领域得到广泛应用。开发者希望通过对Linux进行实时化改造,满足另外一些嵌入式实时应用需求。替代那些价格昂贵、内核源码不公开、难

学位

实时系统嵌入式Linux优先级继承互斥信号量中断线程化高解析度定时器

数据仓库缓存及相关技术研究

数据仓库中存放着海量数据，基于数据仓库的查询和分析操作通常都比较复杂，如何对用户请求提供快速响应，是数据仓库面临的一个严峻挑战。并行处理技术、bitmap索引技术、实体化视

学位

数据仓库联机分析处理缓存技术实体化视图

集群监控中的检测技术研究

随着网络应用的不断扩大，对网络服务器性能的要求也越来越高，对比传统的高性能计算机，集群系统以其卓越的性价比和良好的可扩展性等特性，逐渐成为主流网络服务器。集群服务器由大

学位

集群监控检测干扰

一种分布式数字电视视频服务器的设计与实现

随着数字技术和计算机技术的发展，数字化已经成为当今信息社会发展的一个最显著特征和关键技术，广播电视进入了由模拟电视向数字电视转换的跨越年代。数字电视视频服务器是构建

学位

数字电视

协同训练在教师评估中的应用研究

教学工作是学校的中心工作，教师教学质量评估是教学管理的重要环节，是提高高校整体教学质量和办学效益的重要手段。随着高校规模的迅速扩大和教育体制的不断改革，教学评估工作中

学位

教师评估协同训练自适应特征提取教学质量BP神经网络

多文章共存的复杂版面文档的逻辑结构识别

与本文相关的学术论文