论文部分内容阅读
随着互联网技术的迅速发展,万维网上的可用信息越来越多,并且仍然在迅速地增长,如何发展数据库技术使之能对Web数据进行有效的检索和查询,已经成为当今网络和数据库领域共同关心的问题。人们的期望是:能够象查询数据库一样查询Web数据,要求既要简单,又能够表达比较复杂的查询请求,返回的结果又要尽可能的准确。
为了实现对Web的查询,首先需要选取一个方法来模型化底层的领域,特别是需要模型化Web本身,Web站点的结构,Web页之间的连接结构,以及采用更精细的粒度模型化Web站点等内容。由于Web上的数据具有分布性、动态性、关联性、半结构化和无模式等特点,所以需要采取一种新的模型化方法。为此,本文提出了一种灵活的Web数据模型化方法,这个方法使用Ontology对Web上特定领域的数据模型化,而后使用概念模式来描述要存储的数据和它们之间的关联。这种方法的好处是:系统可以根据特定领域的Ontology来对提取得到的数据自动建立和维护数据的概念模式,不要求事先给出一个模式,也不要求保持很强的约束条件,系统可以根据Ontology自动发现数据对象以及它们之间的关联,而在概念模式上提供的查询语言为表达复杂查询请求提供了有力手段。
为了使用户能够直观、简洁的表达他们的查询请求,本文提出了一种视图模式查询表达方法,查询的视图可以由用户自己来选择,用户可以在这个视图上很容易地表达查询请求,它的优点在于不需要用户了解数据模式信息,只需根据他们的实际查询请求来选择视图即可,同时它可以表达很复杂的查询请求。
论文的另一部分工作集中在查询处理和优化策略的研究上。与搜索引擎和传统的数据库相比,根据在数据模型,底层数据存储策略,以及索引方式等方面的不同,需要设计一种新的查询处理和优化策略。据此,本文提出了一种存储策略和优化方法,它可以适用于不同的底层存储,有效地去除那些对最后查询结果没有用的数据,实验结果表明我们的优化策略十分有效。
为了检验上述理论研究,文中设计并实现了一个以Ontology为核心的Web数据引擎原型系统—SESQ。与其它相关系统对比,它具有能够从不同类型的数据源中提取数据;根据领域的Ontology自动进行相关数据的扩充;提供了一个强有力的可视化查询界面,通过这个界面用户可以很容易地表达比较复杂的查询请求等特点。