论文部分内容阅读
随着大型光学望远镜的精度和深度不断提高,特别是巡天望远镜的发展,天文光学波段的数据急剧增加,成为探索各类天体和天文现象的物理本质的强有力武器。面对天文学“数据雪崩”和“信息爆炸”时代的到来,为了解决天文数据的复杂性、非线性、海量性和多波段性等一系列问题,借助数据挖掘技术来探索隐藏在数据中的有用信息势在必行。在此背景下,如何迅速准确地从这些海量数据中挖掘出所需要的信息,已成为天文学观测和数据处理的一个关键问题,直接影响着天文学发展和研究进程。本文利用一些适合于天文数据特点的数据挖掘技术和方法,主要是利用聚类算法对天体的自动分类和寻找出特殊天体的任务。工作主要包括以下三部分:(1)基于自动聚类算法的恒星/星系分类自动聚类算法(AutoClass)是基于贝叶斯模型确定最优类别的经典混合模型的非监督聚类方法。它对处理非线性和高维数据有很高的效率。应用AutoClass对SDSS巡天的恒星/星系进行自动分类,根据点源和展源的不同特征表现,选择使用了PSF(pointspread function,点扩散函数)星等和模型星等在五个波段的差值作为输入参数,并设置了合适的标准,从而获得合理的分类结果,对恒星和星系的分类正确率分别达到了99.51%和98.52%,表明AutoClass算法对此类数据聚类有很好的效率。(2) SDSS巡天的恒星样本探索目的是探索SDSS恒星样本,找出其中的非恒星天体或特殊天体,从而建立一个纯的恒星样本。我们对SDSS巡天中具有光谱观测的恒星的测光数据应用AutoClass进行聚类分析,得到991个离群天体。然后将这些离群数据在NED和SIMBAD中认证,对于已证认的,发现它们绝大多数属于特殊天体,准确率高达90.7%,而对于未证认的,希望在更大口径更高精度的望远镜中证认,或许会发现一些有趣的天体或现象。(3)星系形态分类星系是构成宇宙的组成单元,而形态是它的基本特性。星系形态的研究是理解星系物理属性的首要步骤。这里根据天文学的任务将星系分成早型星系和晚型星系两类。应用SDSS巡天的星系测光数据,基于五个星等和四个颜色的多组参数,参考不同的分类标准,研究了将AutoClass和k-means两种算法用于星系形态的自动分类。研究结果表明不论对AutoClass还是k-means而言,发现基于颜色的分类效果明显高于基于星等的效果;AutoClass和k-means的分类效率相当;与单纯地基于单参数的星系分类相比,自动化算法具有高效性、灵活性、能够处理高维数据等优点。在数据日益丰富的时代,自动化聚类算法将越来越显示出其优越性。