LAMOST科学计算云平台系统的构建与应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:QQ737618442
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着探测器和空间技术的发展,天文观测从可见光、射电波段扩展到包括红外、紫外、X射线和γ射线在内的电磁波各个波段,形成了全波段天文学,现发展到了一个全新的阶段,即全波段-大样本-巨信息量时期。天文学已然成为各学科中拥有海量数据的龙头老大,由于天文数据量的庞大和增长速度的迅猛,这些巡天项目产生的数据量通常可以达到TB甚至PB级。如斯隆数字巡天SDSS,用了十年时间来覆盖8000平方度的天空,得到大约108个恒星、星系及类星体的大约40TB的成像及光谱数据。随着LAMOST巡天计划的开展,要完成对1000万个星系、100万个类星体及1000万颗恒星光谱的观测,将产生的数据将会是SDSS的十倍之多,对海量数据的存储和处理将会是一个极大的挑战,本文针对LAMOST的需求,对海量光谱的数据存储和处理构建了一套适合天文数据处理的科学计算平台并设计并实现了可定制的云储存系统。本文主要工作如下:1、在LAMOST数据处理中心的24台服务器上构建了一套基于Hadoop开源框架并适合天文数据处理的科学计算平台,其中包含NumPy、SciPy、PyFITS等常用的工具包。使用Python和Shell完成自动部署的程序包,以方便快捷地添加删除物理节点以及设置负载均衡。2、基于Hadoop核心组件HDFS,设计并实现了多用户的云存储系统,为用户提供了新建文件夹、文件上传、下载文件/文件夹、删除文件/文件夹、回收站、记事本及个人信息管理等功能。另外,管理员角色拥有账号管理(包括新增、修改、配额、删除等操作)、单位管理及系统信息查询功能等。用户利用该平台可以方便地存储相关数据和处理结果等。3、研究了科学计算平台的核心组件MapReduce编程模型。在目前较完善的模板匹配算法基础上,使用MapReduce编程规范完成模板匹配,使用KNN和卡方最小化算法对数据进行了测试来验证改进之后的算法,并分别在单机和集群环境下进行了性能对比分析。
其他文献
全局优化技术的应用领域非常广泛,许多实际工程优化问题都能归结为全局优化问题进行求解,这就极大地促进了全局优化技术的兴起和发展。而非线性优化是优化领域内比较难以求解的
现在图像处理被应用到了很多行业中,如军事武器系统和医疗影像系统,因此图像处理变得越来越重要。图像分割技术是图像处理众多关键技术中的一种,起步于上个世纪七十年代,到目
专利文献是技术情报的载体,它的文本中隐藏了大量的技术情报信息,是技术情报消息的最佳情报来源。随着新中国的快速发展,我国专利的申请数量已在逐年升高,至2016年已经连续第
随着科技的快速发展,各个行业领域对数字图像的运用也日益增多,图像分割是图像处理的一种基本技术,因此逐渐受到人们的重视。图像分割方法可以解释为把图像分成特征有差异的
K-近邻算法作为一种理论上比较成熟且简单有效的分类算法,已经得到了广泛的研究和应用。但是K-近邻算法易受噪声影响且不能处理多模态分布的问题;另外传统K-近邻算法认为每个
随着面向服务架构(Service-oriented Architecture, SOA)的发展,SaaS (Software as a Service)服务作为一种新型的软件服务模式凭借其按需租用、易于维护、便于扩展等特点改
根据卫生部《生活饮用水卫生布标准》(GB5749-2006)的规定,余氯浓度是衡量管网水质的重要指标。因此,加强对余氯浓度的研究是改善供水管网水质的一种比较有效的手段。当前,对于管
低密度校验码(Low-Density Parity-Check codes, LDPC codes)是一种逼近香农限的现代编码技术,已成为当今信道编码领域的研究热点之一。由于低密度校验码具有译码复杂度低、纠
近年来,随着交通运输业的发展,交通事故已成为当前各国所面临的严重问题。其中,疲劳驾驶是导致交通事故的一个重要因素。因此,对于驾驶疲劳检测方法的研究已经成为一个重要课题。
近年来,个性化技术在提升互联网信息服务质量方面发挥了重要的作用。伴随个性化思想的普及,各类互联网应用愈发关注用户个人的信息需求。很多方案尝试从各种渠道收集用户数据,建