科学数据库统一检索技术研究与实现

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：zhangqian728

【摘要】

：

中科院“十一五”信息化建设将建成一个海量的科学数据应用环境。如何对这些海量科学数据进行整合，设计一种有效便捷的资源发现手段，为科研工作者提供统一检索入口，使用户可以便

【作者】

：

史晓磊

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2010年期

【关键词】

：

科学数据库统一检索元数据整合抽象模型数据交换协议

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中科院“十一五”信息化建设将建成一个海量的科学数据应用环境。如何对这些海量科学数据进行整合，设计一种有效便捷的资源发现手段，为科研工作者提供统一检索入口，使用户可以便捷地查询到感兴趣的、有价值的科学数据资源，而不必关心数据底层的分布性与异构性，是我们需要解决的问题。　　统一检索最早是由数字图书馆领域提出，目前统一检索比较成熟的技术、协议与开源软件也都集中在该领域。然而科学数据具有异构的存储方式、多样的表达格式、严格的访问控制，这使得针对数字图书馆的统一检索技术难以完全满足需求。为此我们需要在借鉴这些技术的基础上，研究符合科学数据特点的统一检索技术。　　本文首先分析研究了统一检索的现有技术，确定使用元数据整合方式作为科学数据统一检索的实现方式。进而，文章从数据组织、数据收割、数据检索、数据排序与数据展示五方面，对科学数据统一检索关键技术进行研究与设计。具体地说，本文的主要贡献在于：　　 1.建立了科学元数据的抽象模型，并设计了元数据发布中间件与专业类型插件，为该抽象模型提供支持；　　 2.制定了符合科学数据统一检索通信需求的数据交换协议，以及高效可靠的元数据收割策略；　　 3.设计了新的查询结果排序算法，在考虑相关度的同时兼顾到数据质量，避免了传统排序算法“数据越短排名越靠前”的问题。　　随后文章针对部署在数据中心的统一检索引擎、以及部署在建库单位的元数据发布中间件，分别介绍其整体架构与模块实现。最后，文章还展示了中科院科学数据统一检索平台voovle的检索效果，并以GPS专业类型标准插件为例，展示科学数据类型插件在元数据收割中的作用。

其他文献

客户机/服务器计算环境中远程显示优化技术研究与实践

尽管远程显示技术已经在瘦客户计算和桌面虚拟化等研究和产品中得到了广泛应用，但面对多样的客户机/服务器计算环境，远程显示技术仍然存在诸多问题。首先，远程显示一般用于访问

学位

攻击图生成和应用关键技术研究

随着计算机技术和网络通信技术的飞速发展，计算机网络已经遍布全球，并极大地影响着人们的生活和工作，在国家经济和国家安全中也扮演着重要角色。同时，网络安全事件愈来愈多，安全问

学位

快速多极子方法研究及其在电磁散射中的并行实现

快速多极子方法(FMM)可用来加速迭代求解由Laplace方程、Helmholtz方程、Navier方程、Stokes方程、Maxwell方程组等导出的边界积分方程，将矩阵一向量乘积的复杂度由O(N2)降低

学位

快速多极子方法积分方程电磁散射并行实现核函数级数展开误差估计

Web服务声誉机制关键技术研究

声誉机制能较好地缓解Web服务市场中提供者与使用者之间的信息不对称问题。通过对比分布式计算环境下已有的声誉机制与当前Web服务声誉机制后本文发现：目前的Web服务声誉机制

学位

长期生态监测数据自动校验技术研究与实现

中国生态系统研究网络(CERN)的科研人员通过观测、试验、调查等手段积累了大量的长期生态监测数据。然而，从原始数据的获取，到形成最终入库供今后科学研究分析查阅的历史资料，中

学位

长期生态监测数据自动校验上报流程规则表达式语言

面向行车安全信息系统的程序远程部署系统的设计与实现

近年来，随着铁路六次大面积提速，动车组和重载列车大量开行，铁路运输安全性问题更加突出。在高速提速常速并存、速密重并举、客货混跑的运输形势下，铁路各专业投入大量的资金，推广

学位

行车安全程序远程部署信息系统铁路运输

基于信任的群体见解预测

群体见解预测通过挖掘网络社区用户的关联性,以及对该用户群体在某事物上的观点的计算,推断出他们中的个体对该事物的态度或看法。这种智能化的运算对在线信息服务、商业定向

学位

终端性能自适应传输协议研究

随着各种应用的需求和光网络技术的飞速发展，互联网领域出现了高速长距离光网络。最新的研究发现：由于当前各种应用的迫切需求以及网络带宽的迅速提高，网络速率已经远远超出了终

学位

终端性能自适应传输协议长距离光网络传输性能拥塞检测速率适配机制

集中式ARP系统架构的研究与设计

中国科学院资源规划项目(简称ARP项目)，是实现中国科学院科学的资源规划的信息系统工程。长期以来类似大型信息系统的体系结构，一般采用了集中式或分布式结构，两种结构对不同的

学位

资源规划体系架构P信息系统

不完备信息系统中的知识表示与约简算法研究

在自然科学、社会科学和工程技术的很多领域中,人们都不同程度地要面对不确定性和不完备信息的处理问题。数据是信息的载体,由于数据采集过程中各种因素的干扰或数据存储介质

学位

不完备系统区分关系极大相容块属性约简集合覆盖问题

科学数据库统一检索技术研究与实现

与本文相关的学术论文