面向结构化数据资源发现的分布式索引系统设计与实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:cxx163252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结构化数据资源,特别是存储在各种类型的关系型数据库中的结构化数据,具有数据量大、质量高的特点,对科研工作的意义重大。随着高速网络技术以及计算网格技术的发展,在地理上分布的各个科研组织对大规模的数据共享的需求越来越强烈。如何快速有效地找到用户感兴趣的数据资源,是网格环境中信息服务系统需要解决的关键问题。本文的研究目标是在科学数据网格的背景下,针对传统数据网格信息服务的不足,采用信息获取技术和方法,研究并实现面向结构化数据资源发现的分布式索引系统。   本研究分析了通用搜索引擎技术和基于关键词的数据库索引技术,并在此基础上,结合开源项目Lucene和Nutch的NDFS模块,设计了针对分布式结构化数据资源的分布式索引系统,能够在科学数据网格这种分布式环境中有效地对数据库中的结构化数据资源进行索引编制。本文工作的重点是科学数据库中结构化数据的索引技术和索引数据的分布式存储技术;并在分析和利用开源项目的基础上,结合科学数据网格信息服务的需求设计和实现了一个原型系统。该原型系统一方面可以高效地对科学数据库中的大量分布式异构数据资源进行数据抓取,并对其进行深入分析,建立索引文件,从而使用户能够通过像使用搜索引擎的方式,快速定位到用户感兴趣的数据资源;另一方面,大量的索引数据是分布式存储在NDFS文件系统中,不受单个磁盘数据量大小的限制,数据也不会因为单个数据节点的故障而出现丢失,因而有着较好的可扩展性和较高的可用性。本文取得的成果在有关科研项目中得到初步应用,并为进一步研究基于内容检索的科学数据网格信息服务打下一定的基础。
其他文献
随着网络技术地日益成熟,网络提供给用户的服务和应用越来越多。对服务供应商来说,如何深层次地分析用户的通信行为,进而提供更好的服务质量和计费活动显得尤为重要。   本课
学位
系统生物学思想是一种生命科学研究新的工作模式,它从多数据源整合出发,以网络分析为基础,通过统计学、信息学、人工智能等各种手段,对各种生命现象做出预测并指导传统生物实
在中国科学院多媒体通信协作平台的推广应用过程中,考虑到当前中国科技网网络结构相对复杂的情况和多媒体网络通信的实际需求,迫切需要一款能够支持标准会话协议,又兼顾配置的简
学位
包分类技术作为互联网中支持多业务服务能力的关键技术一直是研究人员关注的研究课题.网络处理器由于结合了通用处理器的低成本、灵活性以及专用集成电路(ASIC)的高效率的特
随着集成电路规模的不断扩大、集成度的不断提高,高速度高性能芯片的功耗成为日益突出的问题.保持系统性能的同时降低功耗已经成为集成电路设计面临的新挑战,特别是随着移动
统计学习理论是一种专门研究小样本情况下机器学习规律的新兴理论,它试图从更本质上来研究机器学习问题。SVM(Support Vector Machine,支持向量机)方法是在统计学习理论基础上
伴随着社会信息化进程加快,网络应用深入发展的同时,网络安全问题也日益突出.虽然在网络环境中部署了大量的防火墙、入侵检测系统、防病毒、身份认证等安全产品,在一定程度上
随着处理器和存储器速度差距不断拉大,访存子系统日益成为发挥CPU性能的瓶颈.当发生cache miss时,尤其是最后一级cache miss,需要几十拍,甚至上百拍.处理器花费大量的时间在
目前,在我国电子政务发展迅速,已经积累了大量的电子政务信息资源,我国已经开始了对这些已有的电子政务信息资源的共享方式的探索。政务信息资源目录体系正是为了能够整理和组织
学位
乘性噪声图像,特别是合成孔径雷达(Synthetic Aperture Radar,SAR)图像(SAR)、声纳图像和B超图像的高效处理算法研究具有重要理论与实际意义.针对合成孔雷达SAR乘性噪声图像