论文部分内容阅读
近年来由于因特网和电子商务的高速发展,企业可获取的信息数量和类型有了极大的增长;万维网上可用信息资源的爆炸式增长也给信息的访问带来了新的挑战。数据集成的研究就是在这两种需求之下产生并不断发展的。 数据集成就是如何组合存在于不同数据源的数据,并且以一个统一的视图提供给用户使用的问题。研究者们在数据集成领域取得大量的研究成果;但是这个研究领域是如此的丰富,加之总有新的技术与它结合,所以仍有大量的问题期待人们解决。实际上,近十多年,关于数据集成的研究从未停止过。由于数据的访问多以查询的方式进行,而数据集成系统往往有多个底层数据源,它们被描述为全局模式上的视图,所以,数据集成系统的查询处理问题是数据集成研究的核心问题之一。另外,Web数据也导致了半结构化数据的研究。 本文研究的问题集中于半结构化数据集成系统的查询处理,主要研究了两个问题:OEM(Object Exchange Model,对象交换模型)半结构化数据集成系统中基于TSL(Tree Specification Language)查询语言的最大查询重写问题以及基于本体的XML集成系统中最大查询执行方案的生成以及优化问题。 在第一个方面,在基于TSL查询语言的OEM半结构化数据集成系统中,对于查询的包含和等价以及最大包含重写进行了形式化定义:在这种形式化框架下,提出了基于TSL查询的半结构化数据查询重写算法,其中应用了可伸缩的关系查询重写的MiniCon算法的思想;并且从理论上证明了算法的正确性。 在第二个方面,对于基于本体的XML数据集成系统进行了完善的形式化:在这种形式化框架下,提出了基于本体的XML集成系统中最大查询执行方案生成算法:引入了非完整性角色的概念,并基于非完整性角色对最大查询执行方案生成算法进行了优化;另外文章还提出了查询执行方案网络代价优化算法。理论上也证明了算法的正确性。 本文的工作基于国家自然科学基金项目——电子图书馆的相关关键技术开展。在这个项目中,作者参与了互操作接口及查询处理的设计分析工作,文章研究的问题正是在这些工作积累的基础之上完成的。