论文部分内容阅读
数字出版是现今出版行业一个发展速度迅猛的方向,其中手机出版、移动出版等跨终端出版成为了数字出版的新业态。与传统出版相比,数字出版具有出色的快速查询、海量存储、廉价的成本、方便编辑以及更加环保等特点。因此越来越多的出版社着力于数字出版的技术研究和市场开发。PDF(Portable Document Format)因其能够再现原稿的字符、颜色以及图像且使用易于传输存储的工业标准压缩算法、包含重要结构的定位信息等特点,使得它已经成为国内外大多数出版社用于保存电子文档的主流格式。但是,PDF文件重在描述文档的打印格式,并没有描述文档内容的数据结构,无法根据终端设备的屏幕大小对内容进行动态重组。目前,人们借助于平板电脑、智能手机的移动阅读逐渐成为主流的阅读方式,增加了对出版社数字内容进行跨终端发布的技术需求。因此,基于PDF的数字内容管理方式成为了制约数字内容跨终端发布的瓶颈。W3C推荐的数据交换标准XML,它是Internet环境中跨平台的、依赖内容的技术,是面向内容的文件格式,因此能够弥补PDF文件格式在语义描述方面的不足。采用XML作为出版社文档的保存格式,使得数字内容跨终端发布成为可能。XML采用结构化的方式对电子文档的信息进行了描述,能够在输出时按照给定的格式信息对内容进行布局计算,动态生成符合当前终端屏幕尺寸的版面,是一种适合于描述文件结构和内容的工具。因此为了更有效地利用文档跨终端数字内容出版,有必要将PDF文档转换为XML文档。本文围绕目前出版社在对数字化内容进行跨终端发布时遇到的问题,重点对PDF文档的版面信息抽取和跨终端自适应重组等技术进行研究,提出了针对PDF文档中文本、图片、矢量等信息的抽取方法和版面结构分析方法,利用终端自适应重组算法对数字化内容进行跨终端发布;最后以此为基础设计了一套数字内容跨终端发布的系统,并应用在出版社的实际工作中。