论文部分内容阅读
随着LAMOST大型观测项目的开展,每个观测夜将获得上万条光谱。天体光谱蕴含着天体的重要信息,因此光谱分析在天体研究中占有重要地位。由于天文界对宇宙的认识还比较有限,LAMOST巡天计划的一个重要任务是要发现一些新的、特殊类型的天体,所以如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是非常值得研究和探索的。数据挖掘技术在众多领域中得到广泛的应用,运用数据挖掘技术可以实现相关性预测、分类、聚类、孤立点发现、时间序列分析等许多功能。许多针对高维数据的挖掘算法也正成为研究的热点,而光谱数据本身正是高维的,因此,面对海量的光谱数据,数据挖掘技术中的发现离群点的方法,可以为发现特殊天体提供很好的支持。按照LAMOST的科学目标,光谱数据可以分为粗分类和细分类两大部分。其中粗分类是指首先将天体光谱分成正常天体和发射线天体,然后将正常天体分成正常星系和恒星,发射线天体分成星暴星系和活动星系核。本文正是在粗分类后的得到的数据的基础上进行数据挖掘,来发现特殊天体。本文的主要工作有:(1)面对恒星光谱高维的特点,本文采用了PCA方法构造光谱的主分量,把光谱中的主要特征提取出来。采用主分量为轴,直接把样本点在主分量坐标轴上进行投影,可以得到二维平面上的样本特征点,大大降低了光谱数据的维数。(2)研究了密度聚类算法的基本知识、基本理论,分析了密度聚类算法的优缺点。针对本文是以发现特殊天体为目标,对DBSCAN密度聚类算法进行了改进,提出了以DBFO算法。此算法以最短成簇距离为基础,对所有对象按距离长短排序,最终以发现离群点为目的。(3)根据数据挖掘的一般步骤,从特殊天体挖掘的角度出发,构建了基于天体粗分类数据的特殊天体挖掘系统,并对挖掘流程、系统模块设计做了介绍;主要包括数据预处理,降维投影,聚类等模块;然后用Matlab来展示挖掘得到的特殊天体。最后对通过对实验结果的分析,对比DBFO算法和系统树方法聚类的优缺点。并通过实例展示了发现的特殊光谱和普通光谱的不同。