论文部分内容阅读
随着移动互联网时代的到来,人们的阅读习惯由本地渐变到云端,文档阅读方式由本地浏览渐变到在线阅读。目前国内外在线阅读分享平台,文档在线浏览的统一的解决策略是将各种非PDF格式文档转化为PDF文档,再实现PDF文档的在线阅读。PDF文档的主流在线浏览格式是SWF,即将PDF文档转化为SWF格式,使用FLASH播放器进行在线播放。但基于FLASH的阅读器,因清晰度不理想,加载失败率偏高、功能不够强大等因素,使之无法很好地满足用户阅读需求,无法提供非常好的阅读体验。而且对手机,PAD等屏幕尺寸各异的手持设备缺乏展现和自适应能力。对于没有FLASH播放器的用户,浏览器只能进行PDF内文字元素的展现,在某些情况下,甚至会出现文字乱码的情况。解决清晰度问题的主流方案是将PDF直接转化为HTML文档。支持多终端自适应的主流方案是将PDF元素展现顺序由版式顺序转换成流式顺序。因此,PDF文档HTML化和流式化成为新趋势。在此研究了一个可以支持多终端HTML资源生成的PDF转化系统。具体贡献如下:提供了一种用于Web渲染的数据源格式定义。格式定义中不仅包含PDF渲染所需的文本、图片及字体等必要元素及属性,还包含元素渲染的绝对顺序,使PDF内容既可通过版式渲染,也可通过流式渲染。提供一种基于文本区域重排的算法。通过区域识别,提高文本重排的准确性,很好解决如分栏文档的重排问题。提供一种矢量图元素合并算法。通过矢量图合并算法,减少图形碎片,使矢量图在不同终端都较完整展现。设计一个用于Web浏览的PDF文档字体处理系统,包括从PDF源文档中抽取字体,重建字体文件,转化字体格式,为多终端提供字体文件等功能。基于上述内容,提供一个基于开源工具Xpdf的转化系统实现。提供一套转化系统的Web部署方案。通过正确合理的部署转化系统、字体处理模块以及数据中心,可以轻易快捷的构建一个文档在线阅读平台。直接为用户提供文档在线阅读服务。