科学数据库统一检索技术研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zhangqian728
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中科院“十一五”信息化建设将建成一个海量的科学数据应用环境。如何对这些海量科学数据进行整合,设计一种有效便捷的资源发现手段,为科研工作者提供统一检索入口,使用户可以便捷地查询到感兴趣的、有价值的科学数据资源,而不必关心数据底层的分布性与异构性,是我们需要解决的问题。   统一检索最早是由数字图书馆领域提出,目前统一检索比较成熟的技术、协议与开源软件也都集中在该领域。然而科学数据具有异构的存储方式、多样的表达格式、严格的访问控制,这使得针对数字图书馆的统一检索技术难以完全满足需求。为此我们需要在借鉴这些技术的基础上,研究符合科学数据特点的统一检索技术。   本文首先分析研究了统一检索的现有技术,确定使用元数据整合方式作为科学数据统一检索的实现方式。进而,文章从数据组织、数据收割、数据检索、数据排序与数据展示五方面,对科学数据统一检索关键技术进行研究与设计。具体地说,本文的主要贡献在于:   1.建立了科学元数据的抽象模型,并设计了元数据发布中间件与专业类型插件,为该抽象模型提供支持;   2.制定了符合科学数据统一检索通信需求的数据交换协议,以及高效可靠的元数据收割策略;   3.设计了新的查询结果排序算法,在考虑相关度的同时兼顾到数据质量,避免了传统排序算法“数据越短排名越靠前”的问题。   随后文章针对部署在数据中心的统一检索引擎、以及部署在建库单位的元数据发布中间件,分别介绍其整体架构与模块实现。最后,文章还展示了中科院科学数据统一检索平台voovle的检索效果,并以GPS专业类型标准插件为例,展示科学数据类型插件在元数据收割中的作用。
其他文献
尽管远程显示技术已经在瘦客户计算和桌面虚拟化等研究和产品中得到了广泛应用,但面对多样的客户机/服务器计算环境,远程显示技术仍然存在诸多问题。首先,远程显示一般用于访问
学位
随着计算机技术和网络通信技术的飞速发展,计算机网络已经遍布全球,并极大地影响着人们的生活和工作,在国家经济和国家安全中也扮演着重要角色。同时,网络安全事件愈来愈多,安全问
学位
快速多极子方法(FMM)可用来加速迭代求解由Laplace方程、Helmholtz方程、Navier方程、Stokes方程、Maxwell方程组等导出的边界积分方程,将矩阵一向量乘积的复杂度由O(N2)降低
声誉机制能较好地缓解Web服务市场中提供者与使用者之间的信息不对称问题。通过对比分布式计算环境下已有的声誉机制与当前Web服务声誉机制后本文发现:目前的Web服务声誉机制
学位
中国生态系统研究网络(CERN)的科研人员通过观测、试验、调查等手段积累了大量的长期生态监测数据。然而,从原始数据的获取,到形成最终入库供今后科学研究分析查阅的历史资料,中
近年来,随着铁路六次大面积提速,动车组和重载列车大量开行,铁路运输安全性问题更加突出。在高速提速常速并存、速密重并举、客货混跑的运输形势下,铁路各专业投入大量的资金,推广
群体见解预测通过挖掘网络社区用户的关联性,以及对该用户群体在某事物上的观点的计算,推断出他们中的个体对该事物的态度或看法。这种智能化的运算对在线信息服务、商业定向
学位
随着各种应用的需求和光网络技术的飞速发展,互联网领域出现了高速长距离光网络。最新的研究发现:由于当前各种应用的迫切需求以及网络带宽的迅速提高,网络速率已经远远超出了终
中国科学院资源规划项目(简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。长期以来类似大型信息系统的体系结构,一般采用了集中式或分布式结构,两种结构对不同的
在自然科学、社会科学和工程技术的很多领域中,人们都不同程度地要面对不确定性和不完备信息的处理问题。数据是信息的载体,由于数据采集过程中各种因素的干扰或数据存储介质