天文光谱分类算法在分布式环境下的应用研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:howard2000_0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
天体光谱蕴含着天体重要的物理信息,通过光谱的研究,人们可以测定天体的成分,确定天体的表面温度,光度,直径,质量等信息。因此,光谱分析在天体和物理学中占有重要地位。LAMOST望远镜建成以后,每个观测夜都将产生上万条光谱。如何处理这些海量光谱从而及时获得所需的科学信息成为一项重要的议题。数据挖掘技术正在众多领域中得到广泛的应用,它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。运用数据挖掘技术可以实现相关性预测,分类,聚类,孤立点发现,时间序列分析等等功能,面对海量的光谱数据,数据挖掘技术正好可以为解决光谱数据的分类,参数测量等工作提供很好的支持。天文光谱数据具有海量及分布式存储等特点,其相关的处理需要分布式环境及数据挖掘算法的支持。本文主要研究分布式环境下天文光谱数据挖掘的并行和分布式挖掘算法。以分布式存储的光谱多属性数据集为基础,利用主从模式的并行程序模式,对光谱进行快速并可扩展性的分布式并行处理,并减少冗余计算及节点间的通信量,避免了不必要的网络负载和网络竞争的产生,解决并行分类算法性能的负载均衡问题,以期提高天文光谱处理的效率。结果表明,不仅有利于减少通信机进行I/O的开销,并能根据统计信息和网络状态、通信代价,考虑到任务均衡,合理分配任务,有利于提高算法的并行度和执行效率。本论文的主要工作包括:(1)建立分布式运行环境,搭建基于MPI的并行计算环境,进行分布式分类挖掘算法的研究。(2)提出考虑负载平衡的分布式并行挖掘系统,提出在分类算法任务分配时,根据网络负载和计算节点负载情况合理分配任务,达到并行挖掘效率的最大化。(3)按照数据挖掘的一般流程,对晚型星和类星体两类星体的的光谱数据进行特征提取,主要利用PCA方法进行降维处理,以适应分类需要。(4)研究SPRINT算法,将SPRINT算法并行化实现,并对并行SPRINT算法进行了改进,对降维后的光谱数据在分布式环境下进行分类处理。
其他文献
人体动作识别研究涉及了很多学科,比如计算机视觉、机器学习、模式识别、信号处理、数字图像处理、人工智能等,具有非常重要的理论研究价值。同时人体动作识别技术也有很广阔
图像分割是很多高级图像处理技术(如可视化、图像压缩、医学图像诊断等)的重要基础工作。迄今为止,已经有很多种不同的图像分割方法提出。阈值法因其实现的简单性而成为图像
三维显示一直是学术界的研究热点。时至今日已经经过了多年的发展,在产业和学术界都出现了许多不同门类和外观的三维显示解决方案,然而此领域的研究热度没有任何降温。近年来
近年来,随着储能技术的发展,锂离子电池以其高效优质的特性在储能系统中的应用愈加广泛,对储能锂离子电池系统的管理成为了储能技术研究的热点之本文研究了一种新型软碳负极
随着社会信息化步伐的加快,信息安全正在成为人们研究的热点。由于生物识别技术具有不可复制,不可移植,不可仿造的特点,使得生物识别技术在信息安全领域的应用越来越广泛。在
网格的特点包括:节点的数量比较大;节点之间的异构性;每个节点具有高度的自治性。在网格系统中,大量的动态和异构资源给网格资源发现带来巨大的挑战。   本论文提出了采用自组
特征选择通常作为归纳学习的一个预处理操作,它旨在从原始数据的特征空间中选择一个最优的特征子集,使得在原始特征空间上的操作可以很好地在该特征子集空间上的操作来表示。
随着汽车工业的快速发展,汽车控制也越来越智能化,越来越多的智能控制系统被加入到汽车中。为了使各控制系统能够相互通讯,车身网络也就应运而生。CAN总线是目前运用比较广泛
信息系统的广泛应用和互联网技术的发展,促进了人们对完整获取分布、异质信息的需求,特别是完整获取半结构化甚至非结构信息的需求,因此促进了数据集成技术的研究。本文在现
社交网络的流行改变了人们的交流方式,越来越多的互联网用户习惯于通过社交网站进行社交活动并分享各类信息。随着移动定位设备的普及,基于位置的社交网络也逐渐流行起来并且