论文部分内容阅读
数据集成的需求由来已久,对数据集成系统的研究一直是数据管理研究领域及其它相关领域一个非常热门的课题。随着Web平台逐渐成为信息服务的主导平台,对Web环境下的数据集成系统的研究也越来越成蓬勃发展的趋势。本论文以XML技术为基础,研究Web环境下集成多个自治异构数据源将会遇到的问题,研究的核心集中于自治异构据源的集成查询处理,主要包含以下五个方面的内容:以一种半结构化数据模型为基础提出了一种XML数据模型表示-XTree。以这种模型为基础,给出了路径表达式的形式化定义,设计了一种全新的XML查询语言-AnXQL。采用在XML的中介模式上的视图定义来描述数据源的内容,第一次在XML的集成查询中使用“利用视图重写查询技术”,使得模型化数据源内容间的微妙差别成为可能。并基于此,开发了一种高效的重写查询查找算法。设计了一种XML查询语言代数操作符表示,并在代数表示的基础上,研究了基于代数重写XML查询优化的方法和可能性。设计了一种轻型的关系型数据源包装器系统。将XML查询翻译成SQL查询,并将返回的元组集合转换成相应的XML数据格式。以DOM和归纳学习技术为基础,设计了一种声明型的表示方式来表达抽取规则。并根据抽取规则自动生成数据密集型Web数据源包装器的构件。最后,以较小的篇幅给出了一种Web站点的声明型定义语言,可以声明型地定义Web站点的内容和结构,方便站点的构造和管理。