论文部分内容阅读
论文以数字化图书发展过程中面临的困难——异构电子数据资源给读者的使用带来不便为背景,介绍了目前为了实现电子资源的“一站式”查询,而在电子资源系统集成时所采取的通用解决方案;同时针对现在应用广泛的印刷电子资源的组织方式,提出了基于公共对象请求代理体系结构的异构电子数据资源集成系统的解决方案,并应用此方案将印刷电子文档转换至通用数据库管理系统中,实现电子图书资源系统的集成。电子图书资源系统集成的目标是将电子文档格式进行屏蔽,以便于对印刷电子文档进行统一的检索,实现“一站式”查询。 论文在深入了解当前电子文档的基础上,主要完成了如下工作: (1)对公共对象请求代理体系结构在电子资源集成方面的技术,论文通过比较几种电子资源系统集成的方法,给出了采用公共对象请求代理体系结构技术解决电子资源集成的原因。论文实现了基于公共对象请求代理体系结构的中间件系统,使用三层体系结构,完成了电子图书资源系统的集成。 (2)论文以印刷电子文档为具体实例,分析了当前流行的电子文档格式,电子文档从逻辑上分为对象、文件结构、文档结构、页面四部分进行描述;从物理上分为文件头、文件体、交叉引用表和文件尾等四部分进行描述。论文通过对印刷电子文档的结构进行分析研究,为提取电子文档信息提供支持。 (3)论文以PDF文档为示例,实现了文档信息的读取。采用内容流解码的方法将文档中的信息读取出来,并对篇章结构进行了初步的划分。系统实现主要划分为四个模块:类型识别模块、转换模块、处理模块和存储模块。首先将文档转换成文本文档,再对转换好的文本文档进行进一步的处理,修正诸如文件标题、摘要、正文、参考文献等的控制标记,便于电子文档有用信息进行方便的处理、共享和交换。