论文部分内容阅读
在最近的二十年里,电子格式存贮的数据以惊人的速度激增,形成了海量的数据和信息。数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,包括统计学习和人工神经网络等方法。
自组织映射网络是一种无监督学习的神经网络,在拓扑保持的同时,可以将高维的输入数据以低维的形式表达出来,故SOM可以作为一种可视化的方法,适用于对数据进行分析以提取有用的信息,由于SOM的这种特性,在数据挖掘中广为应用。在本文中我们提出了一种用来进行数据分析聚类的新型自组织映射网络——GrowingHierarchicalSelf-OrganizingMap(GHSOM),它的特点是不需要预先获知关于数据集的任何信息,在聚类的同时也将数据集的层次结构呈现出来。
为了检验GHSOM对数据集类别和层次结构的揭示能力,我们使用GHSOM对高维数据——小鼠中枢神经系统数据集和酵母细胞周期数据集进行聚类和分类处理。最后通过与其他聚类算法的比较,说明了GHSOM本身具有比较理想的数据处理能力。
本论文的主要贡献为:1)提出了一种新的自组织映射算法GHSOM;
2)将GHSOM应用于微阵列数据的分析,来检验算法的有效性。