论文部分内容阅读
文档是信息的载体,互联网的飞速发展使得信息传播方式发生了变革,传统的纸质文档由于信息传播不便、难于保存和管理、信息检索受限,正在日益被电子文档替代。电子文档不但节约了信息传播的成本,同时加快了信息的增值,已成为信息社会的基本需要,而版式的电子文档由于具有呈现效果固定、独立于操作系统平台的特点,广泛的应用于电子图书、电子报纸等数字出版物发行,以及数字图书馆的馆藏核心。 表格,是一种非常重要的结构化文档页面元素,遍布于各种类型的文档之中,用于紧凑的存储和展现数据。文档的作者通常使用表格总结重要数据,例如研究人员使用表格来展示最新的实验结果或统计数据。随着网络和数字图书馆的爆炸式发展,表格已经成为一个有价值的信息和数据源。表格的自动识别对于网络出版领域和数字图书馆的建设都具有重要意义。一方面,新型的网络出版文档模型要融合版式数据和流式信息,以满足不同设备普适性阅读的需求,因此需要从传统的无标签的版式文档中识别出“表格”这种逻辑对象,作为复合对象资源,应用于流式化版面自适应重新排版;另一方面,在数字图书馆领域,表格元数据抽取、建立索引和表格搜索引擎的构建,能够使用户查询、检索、存储、重用表格中富含的重要数据资源。在这样的背景下本论文对相关问题展开了一系列研究。 本文以传统的固定版式电子文件为研究对象,对于给定的文档首先检测其中是否含有表格对象,定位表格对象区域的边界;在此基础上分析表格的结构,主要指表格的逻辑结构,即表格中的各个部件(行、列、单元格)如何相互作用构成一个表格;最后针对表格定位与结构分析在流式重排和信息检索两方面的应用展开相关研究。本文具有创新性的研究成果主要体现在以下几个方面: (1)提出了一种表格分隔符与文本布局特征相结合的表格定位方法 表格分隔符抽取,一方面利用版式文件解析获得的图形绘制指令精确的聚合可视的表格线,以处理有线表格,另一方面采用页面空白分析方法获得条形空白区域作为虚拟分隔符,以处理无线表格。文本布局则主要表现在表格列内的单元格互相交叠,而列与列之间相互独立的特征。根据表格与正文段落在页面中的不同布局表现,启发式地验证表格文本和表线以确定表格区域边界。本文还利用多页文档布局的“同一性”识别页面分栏,以处理跨栏和单栏表格。与以往方法相比,本文提出的方法显著的提高了表格检测的召回率,并且对于布局复杂多样的表格识别的准确率也更高。 (2)设计了一套表格定位自动评估方案并实现了评估系统 为了自动评测与比较现有的表格定位方法,本文设计了一套自动评估方案并实现了该评估系统:构建了初具规模的中英文样例集,人工标注标准结果并设计合理的XML schema来描述,在该方案中提出了面向应用场景的细粒度评估准则,从而改进传统的准确率和召回率在表格定位评测中的局限性。 (3)提出了一种规则与机器学习相结合的表格逻辑结构分析方法 针对表格逻辑结构分析问题,本文提出并对比了两种表头区域检测方法,一是基于规则的相邻行列相似度局部最小值最优法,二是基于机器学习的支持向量机、逻辑回归和随机森林模型的分类方法。然后分析复杂表头的层级关系,获得从表头单元格到数据单元格的完整标引,最后采用树形结构表示表格逻辑结构,实验结果表明90%以上的表格能够通过本文的方法获得正确的逻辑结构。 本文在表格定位和结构分析的基础上,针对两方面的应用开展了研究。一方面是提出了另外两种复杂版面对象段落和图形的识别方法,以共同作用于网络出版需要的内容流式重排,目前的算法已经实际应用于普适性网络出版文档框架CEBX格式的电子图书的制作,显著提高了自动化水平。另一方面是搭建了一个表格检索实验平台,与常规的全文检索不同,该表格搜索引擎同时考虑了关键词是否出现在结构单元中,融合了对结构信息元数据建立索引,使之即同时满足内容和结构查询要求。表格检索能够使用户自动的查询检索所需要的表格,并消除手动的从数字图书馆中解压缩表格而获取数据的负担。