论文部分内容阅读
大多数天文观测中产生的数据是以FITS (Flexible Image Transport System)文件的形式存储的,这种文件格式在全世界范围内被用于保存和交换数据。由于大量的大型多通道多波段天文望远镜的应用,当今天文观测产生的FITS文件的数量激增,这为如何存储和快速检索如此数量惊人的文件提出了挑战。在以前,这止匕FITS文件是没有被索引的。它们被直接存在硬盘或者其它存储介质上。当一个硬盘存满的时候,会被换上一个新的,被替换下来的硬盘将会被存放在一个专门用于存放使用过的硬盘的仓库内。这些硬盘的替换工作都需要由人工来完成,造成了人力资源的浪费。而且这些被替换下来的硬盘当然不是联机的,所以查询在它们上存储的文件是一项困难的任务。所以只有当查询条件是一个日期或是一个时间段,才有可能比较容易获得查询结果,而像锥形检索这样复杂的检索条件很难被完成。这种由数量激增的FITS文件所导致的问题曾经被数据库管理系统(DBMS),如MySQL和Oracle等所解决。但是随着文件的数量越来越快地增长,传统的数据库管理系统无法跟上文件数量增长的脚步。这使得索引和查询所花费的时间也越来越长。本文介绍了使用分布式存储系统来解决FITS文件存储问题的方法,介绍并通过实验对比了几种分布式文件系统。通过对实验结果的分析,得出了类似GlusterFS和Lustre这类的对文件的写入性能表现得较好的分布式文件系统更适合用于存储在持续天文观测中不断产生的海量的FITS文件的结论。并且最终选取了GlusterFS作为FITS文件分布式存储系统所使用的分布式文件系统。在解决FITS文件的检索问题上,本文提出了使用位图索引的方式加速FITS文件的检索,并通过将FastBit位图索引技术应用在分布式系统上,开发了FITS文件分布式索引系统,实现海量FITS文件的快速索引和查询。本文通过实验证明了FastBit位图索引技术在解决海量FITS文件索引的问题上有其性能优势,并证明了在FITS文件分布式存储的情况下,基于FastBit位图索引技术的FITS文件索引与查询系统能很好地发挥多机协作的优势,能较大地提高海量FITS文件的检索速度。