论文部分内容阅读
中科院“十一五”信息化建设将建成一个海量的科学数据应用环境。如何对这些海量科学数据进行整合,设计一种有效便捷的资源发现手段,为科研工作者提供统一检索入口,使用户可以便捷地查询到感兴趣的、有价值的科学数据资源,而不必关心数据底层的分布性与异构性,是我们需要解决的问题。
统一检索最早是由数字图书馆领域提出,目前统一检索比较成熟的技术、协议与开源软件也都集中在该领域。然而科学数据具有异构的存储方式、多样的表达格式、严格的访问控制,这使得针对数字图书馆的统一检索技术难以完全满足需求。为此我们需要在借鉴这些技术的基础上,研究符合科学数据特点的统一检索技术。
本文首先分析研究了统一检索的现有技术,确定使用元数据整合方式作为科学数据统一检索的实现方式。进而,文章从数据组织、数据收割、数据检索、数据排序与数据展示五方面,对科学数据统一检索关键技术进行研究与设计。具体地说,本文的主要贡献在于:
1.建立了科学元数据的抽象模型,并设计了元数据发布中间件与专业类型插件,为该抽象模型提供支持;
2.制定了符合科学数据统一检索通信需求的数据交换协议,以及高效可靠的元数据收割策略;
3.设计了新的查询结果排序算法,在考虑相关度的同时兼顾到数据质量,避免了传统排序算法“数据越短排名越靠前”的问题。
随后文章针对部署在数据中心的统一检索引擎、以及部署在建库单位的元数据发布中间件,分别介绍其整体架构与模块实现。最后,文章还展示了中科院科学数据统一检索平台voovle的检索效果,并以GPS专业类型标准插件为例,展示科学数据类型插件在元数据收割中的作用。