论文部分内容阅读
本文设计实现了一套Web数据集成工具XMLToyBricks中,。首先,观察到Web环境下,用于交换的数据信息相当多的都是来源于关系型数据库或者是表现关系特性的数据。针对这种现象,设计了类似于关系代数的集成表达逻辑,使用了求并、连接、选择以及投影四种主要的关系运算;针对XML集成中普遍存在的语法、语义冲突问题,目前人们解决冲突的方法的开销比较大,认为可以在一个应用领域中,存在该领域使用的公共词汇,针对XML,将标签、属性或者标签属性组合的出现成为一个“XML场景”,通过列举公共词汇在集成环境中可能出现的“场景”,在XML解析过程进入该场景时能自动将来自数据源提供者的本地信息映射成为用公共词汇表达的全局信息,以解决语法异构的问题。这种处理语法异构的方法开销较小,但不能保证正确性,需要人工参与调整;针对语义冲突问题,将解决的责任交给人工,由自定义的数据处理过程来解决语义冲突,在工具框架内提供了方便处理链的发布的插口。XMLToyBricks将数据内容与XML格式分离,每个用户可以针对某类整合数据定制自己需要的结果格式,XMLToyBricks会根据此配置信息按照用户需要的格式返回XML结果。为了进一步提高效率,提高集成数据的可用性,XMLToyBricks使用了缓存,针对缓存管理,设计了初步的策略。