论文部分内容阅读
结构化数据资源,特别是存储在各种类型的关系型数据库中的结构化数据,具有数据量大、质量高的特点,对科研工作的意义重大。随着高速网络技术以及计算网格技术的发展,在地理上分布的各个科研组织对大规模的数据共享的需求越来越强烈。如何快速有效地找到用户感兴趣的数据资源,是网格环境中信息服务系统需要解决的关键问题。本文的研究目标是在科学数据网格的背景下,针对传统数据网格信息服务的不足,采用信息获取技术和方法,研究并实现面向结构化数据资源发现的分布式索引系统。
本研究分析了通用搜索引擎技术和基于关键词的数据库索引技术,并在此基础上,结合开源项目Lucene和Nutch的NDFS模块,设计了针对分布式结构化数据资源的分布式索引系统,能够在科学数据网格这种分布式环境中有效地对数据库中的结构化数据资源进行索引编制。本文工作的重点是科学数据库中结构化数据的索引技术和索引数据的分布式存储技术;并在分析和利用开源项目的基础上,结合科学数据网格信息服务的需求设计和实现了一个原型系统。该原型系统一方面可以高效地对科学数据库中的大量分布式异构数据资源进行数据抓取,并对其进行深入分析,建立索引文件,从而使用户能够通过像使用搜索引擎的方式,快速定位到用户感兴趣的数据资源;另一方面,大量的索引数据是分布式存储在NDFS文件系统中,不受单个磁盘数据量大小的限制,数据也不会因为单个数据节点的故障而出现丢失,因而有着较好的可扩展性和较高的可用性。本文取得的成果在有关科研项目中得到初步应用,并为进一步研究基于内容检索的科学数据网格信息服务打下一定的基础。