电子文档表格的自动定位与结构分析研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:rovewind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档是信息的载体,互联网的飞速发展使得信息传播方式发生了变革,传统的纸质文档由于信息传播不便、难于保存和管理、信息检索受限,正在日益被电子文档替代。电子文档不但节约了信息传播的成本,同时加快了信息的增值,已成为信息社会的基本需要,而版式的电子文档由于具有呈现效果固定、独立于操作系统平台的特点,广泛的应用于电子图书、电子报纸等数字出版物发行,以及数字图书馆的馆藏核心。  表格,是一种非常重要的结构化文档页面元素,遍布于各种类型的文档之中,用于紧凑的存储和展现数据。文档的作者通常使用表格总结重要数据,例如研究人员使用表格来展示最新的实验结果或统计数据。随着网络和数字图书馆的爆炸式发展,表格已经成为一个有价值的信息和数据源。表格的自动识别对于网络出版领域和数字图书馆的建设都具有重要意义。一方面,新型的网络出版文档模型要融合版式数据和流式信息,以满足不同设备普适性阅读的需求,因此需要从传统的无标签的版式文档中识别出“表格”这种逻辑对象,作为复合对象资源,应用于流式化版面自适应重新排版;另一方面,在数字图书馆领域,表格元数据抽取、建立索引和表格搜索引擎的构建,能够使用户查询、检索、存储、重用表格中富含的重要数据资源。在这样的背景下本论文对相关问题展开了一系列研究。  本文以传统的固定版式电子文件为研究对象,对于给定的文档首先检测其中是否含有表格对象,定位表格对象区域的边界;在此基础上分析表格的结构,主要指表格的逻辑结构,即表格中的各个部件(行、列、单元格)如何相互作用构成一个表格;最后针对表格定位与结构分析在流式重排和信息检索两方面的应用展开相关研究。本文具有创新性的研究成果主要体现在以下几个方面:  (1)提出了一种表格分隔符与文本布局特征相结合的表格定位方法  表格分隔符抽取,一方面利用版式文件解析获得的图形绘制指令精确的聚合可视的表格线,以处理有线表格,另一方面采用页面空白分析方法获得条形空白区域作为虚拟分隔符,以处理无线表格。文本布局则主要表现在表格列内的单元格互相交叠,而列与列之间相互独立的特征。根据表格与正文段落在页面中的不同布局表现,启发式地验证表格文本和表线以确定表格区域边界。本文还利用多页文档布局的“同一性”识别页面分栏,以处理跨栏和单栏表格。与以往方法相比,本文提出的方法显著的提高了表格检测的召回率,并且对于布局复杂多样的表格识别的准确率也更高。  (2)设计了一套表格定位自动评估方案并实现了评估系统  为了自动评测与比较现有的表格定位方法,本文设计了一套自动评估方案并实现了该评估系统:构建了初具规模的中英文样例集,人工标注标准结果并设计合理的XML schema来描述,在该方案中提出了面向应用场景的细粒度评估准则,从而改进传统的准确率和召回率在表格定位评测中的局限性。  (3)提出了一种规则与机器学习相结合的表格逻辑结构分析方法  针对表格逻辑结构分析问题,本文提出并对比了两种表头区域检测方法,一是基于规则的相邻行列相似度局部最小值最优法,二是基于机器学习的支持向量机、逻辑回归和随机森林模型的分类方法。然后分析复杂表头的层级关系,获得从表头单元格到数据单元格的完整标引,最后采用树形结构表示表格逻辑结构,实验结果表明90%以上的表格能够通过本文的方法获得正确的逻辑结构。  本文在表格定位和结构分析的基础上,针对两方面的应用开展了研究。一方面是提出了另外两种复杂版面对象段落和图形的识别方法,以共同作用于网络出版需要的内容流式重排,目前的算法已经实际应用于普适性网络出版文档框架CEBX格式的电子图书的制作,显著提高了自动化水平。另一方面是搭建了一个表格检索实验平台,与常规的全文检索不同,该表格搜索引擎同时考虑了关键词是否出现在结构单元中,融合了对结构信息元数据建立索引,使之即同时满足内容和结构查询要求。表格检索能够使用户自动的查询检索所需要的表格,并消除手动的从数字图书馆中解压缩表格而获取数据的负担。
其他文献
云计算是一种用户可按需分配及自主配置的新型资源池,这种技术可以为用户提供计算、网络、存储等虚拟资源。作为一种为用户提供商业服务的技术,如何合理调度系统资源是云计算
目前社交网络媒体已逐渐取代传统新闻媒体,成为人们获取信息、交流观点、发表意见的主要平台。但是随着微博参与者数量的爆发式增长,用户面临“信息过载,知识缺乏”的窘境。
几乎所有的恶意程序样本都被一个可执行的保护包裹,为了静态分析恶意程序样本,必须先移除可执行保护(称之为软件反保护)。而与此正好相反,为了保护软件的核心技术不被逆向工程和未
联机分析处理(Online Analytical Processing,OLAP)是数据仓库系统中的一种多维数据分析技术,操作的对象是多维数据集。联机分析处理服务器与多维数据展示工具是联机分析处理系
随着信息化进程的不断扩大,人们将面对越来越多需要处理的数据。如何在这样海量的数据信息中便捷快速而又准确地获取所需是其中一个人们所关心的话题,搜索引擎也因此应运而生。
随着数据呈现海量式的增长方式,数据规模和数据维度都在不断增加,数据的冗余问题越来越严重,而且用户对于数据的需求也逐渐出现差异化,不同部门或者研究者对于数据的采集及处
无线传感器网络是一种由带着无线通信装置的终端节点组成的多跳的、对等的自治系统。由于其无需架设网络基础设施,组网快速灵活,具有抗毁性强,低成本和易于维护等优点,在战场通信
图像的颜色渐变,是指图像像素点的RGB颜色值按照一定的递增或者递减或者其他有规律的形式进行变化的一种方式。图像的颜色渐变是图像的重要模式之一,许多自然图像和计算机图片
揭示人类视觉机理是智能科学的重要任务之一,动态视野是评价视觉特征,进而研究视觉机理的一项重要指标,也是实现机器视觉的一个基本参数。准确评价动态视野对人脑功能、视觉机理
行人检测是计算机视觉领域重要的研究课题,由于其广泛的应用场景和巨大的商业价值,一直以来都是研究的热点。  虽然行人检测经过了长期的发展,已经取得了一些进展,但其性能距离