论文部分内容阅读
生产生活中信息量的迅速增长,使得人们对数据的需求不仅仅局限于本地数据源的数据,对于异地数据的需求量也与日俱增。异地数据的异构性使企业、部门和机构间的数据访问存在诸多的不便,降低了信息的利用效率。 本文的研究基于国家发展与改革委员会高新技术产业化项目:协同业务集成中间件平台SynchroBIP(Business Integrator Platform)项目中的企业服务总线系统SynchroESB。该系统实现了企业信息系统中各应用软件系统和各异构数据源间的互操作,使用户方便、快捷、准确的从异构数据源上获取数据,而无需了解具体数据源的信息结构和访问接口。 包装器作为系统重要的组成部分,用于对异构数据源进行包装和适配,将外部的应用系统连接进入服务总线,使其能够以标准的消息交换与其它的程序组件和应用系统进行交互,提供了对数据库、消息服务器和遗留系统的广泛连接,本文即对其进行了深入研究。 论文首先对XML相关技术、结构化和非结构化的异构数据源理论以及面向服务的体系架构与企业服务总线等相关理论基础进行了论述。 其次,对面向服务的SynchroESB软件平台的系统架构进行了简要的描述。在该架构的基础上,从详细说明一个具体应用场景在系统中的部署、执行入手,引出包装器在SynchroESB系统中的目的、作用和存在形式。 然后,详细阐述了结构化数据源数据库包装器的设计及关键技术实现,包括:XML文档解析技术、关系数据库与XML之间的映射技术和XPath与SQL之间的查询转换技术。并通过分析Web页面特点和三种Web信息抽取技术,提出了一种非结构化数据源Web包装器的设计方案,通过网页解析、目的模式定义和样本学习,实现半自动化的Web信息抽取。 最后,对数据源包装器技术作了进一步的探讨和展望。