论文部分内容阅读
国际天文合作项目平方公里阵(SKA)经过多年的论证和预研,预计将于2019年正式开始分两个阶段进行建设。这个大型的天文望远镜项目将带来史无前例的大数据,世界各国各领域的研究人员从材料、机械、网络、电子、能源等各方面开展了针对性的研究。无论在哪个领域,有关该项目的研究都是最前沿的。SKA由几千乃至上百万个两种类型的天线组成,仅在第一阶段,每秒产生的数据量就将达到近百TB,因此有必要在望远镜站址所在国之外建设区域数据中心,为区域内科学家提供数据处理分析和数据存储需求,国内天文界正积极推动筹建SKA亚太区域数据中心。本文以此为背景,针对SKA区域数据中心将面临的大数据存储和处理问题进行研究,为区域数据中心的关键技术提供切实的解决方案,研究成果具有很好的应用前景。本文针对如何创建满足项目需求的区域数据中心,提出了相应的建设天文云数据中心的方案,就其中数据分布式读写和数据分布式处理分别展开具体的研究,并对方案予以实现,最后进行了测试和分析。本文的主要工作包括:1)给出SKA区域数据中心云平台架构的设计方案:对于SKA的计算规模,将高性能计算和云计算结合是发展的趋势,本文从云计算角度出发,提出建设天文云数据中心,并给出具体架构设计。2)研究SKA区域数据中心的数据分布式读写:相比日益增长的天文观测数据,天文数据分析处理软件的发展比较落后,以目前通用的CASA软件为例,其底层对于数据的读写操作是串行的,这显然无法满足大量数据的读写要求。本文通过改写其内部专门进行数据存储管理的数据表存储管理器,结合分布式文件系统,提出了一种对数据进行分布式读写的方法。3)研究SKA区域数据中心的天文数据分布式处理:射电天文数据分析处理过程繁杂,本文以其中最耗时的成图部分为例,进行云数据中心中的分布式处理研究。4)搭建云实验环境:利用Open Stack搭建了一个云实验环境作为区域数据中心的模型,并用实际观测数据进行测试分析。测试过程共进行了两种处理流程、三种数据拆分方式的交叉组合,最后给出了测试结果展示。经过详细地测试和分析,本文可以得出如下结论:1)在大数据量的情况下,本文提出的数据分布式读写方法相比传统方法对数据读写性能有显著提升。2)在云数据中心上以分布式方式进行天文数据处理的方法是可行的,通过选择合适的数据拆分粒度,可以有效提高整个数据的处理效率。