论文部分内容阅读
科学技术的不断发展使天文学进入了全波段巡天时代,同时天文观测得到的各个波段的数据迅速增长。随着我国LAMOST项目开始正式巡天,在巡天过程中将会逐渐发布海量的光谱数据,同时世界各地其他国家的巡天星表数据也不断发布,如WISE(Wide-field Infrared Survey Explorer)、FIRST (Faint Images of the Radio Sky at Twenty-Centimeters)、Pan-STARRS (Panoramic Survey Telescope&Rapid Response System)、SDSS(Sloan Digital Sky Survey)、2MASS (Two Micron All Sky Survey)等。由于不同巡天望远镜性能不同,导致星表中位置的误差半径和包含的波段信息各不相同,所包含的天体物理信息也有一定的差别。为了获得天体更全面、系统的信息,需要对各个波段的天体信息进行交叉证认,获得天体的多个波段的信息,为后期开展统计分析、数据挖掘做准备。面对海量天文数据,如何高效的存储和对多星表进行交叉证认显得尤为重要。海量天文数据处理必须要使用分布式、并行计算等大数据处理技术才能有效解决。本文对利用Hadoop处理海量天文数据进行了研究,主要工作分为以下三部分:1.利用Hadoop的HBase组件,构建对不同星表数据的有效存储,提高集群磁盘利用率和星表信息查询效率。2.在对HEALPix和HTM两种伪二维球面索引方法进行研究的基础上,结合Hadoop实现多个星表之间高效的交叉证认。3.将交叉证认结果存储在Hadoop中,方便用户对交叉证认结果的下载和根据指定信息对要查询结果的下载。本文结合Hadoop实现了对海量天文数据的存储和多星表间的交叉证认,有效的提高了星表数据的存储和交叉证认效率,对今后解决同类海量天文数据的处理应用有重要的参考价值。