论文部分内容阅读
科技的飞速发展,引起信息的急剧膨胀,给计算机存储和行业数据库带来巨大挑战。随着数据指数级的增大,维度不断加大,数据类型的复杂度也在不断提升。对于这些超高维数据,需要通过数据挖掘技术来探索隐藏于数据内的信息并利用获取的信息辅助我们做出科学合理的预测与决策。常见处理高维数据方法有:数据降维、聚类分析、回归分析等。 本文介绍了传统的自组织映射(SOM)神经网络和K-medoids算法。传统的SOM算法在使用时,存在部分样本点和对应的权向量之间差距较大,造成聚类的准确性较低;K-medoids算法在聚类前需要人为确定聚类个数和初始中心点,而不同的聚类个数和初始中心点的选择会造成不同的聚类结果。为弥补以上两种方法的不足,本文提出一种自组织映射(SOM)神经网络与K-medoids算法结合的算法—改进的SOM-K算法。 文中,第一章详细描述了大数据背景下,聚类和降维算法的研究意义;第二章主要讲述了基于聚类算法距离的定义;第三章主要阐述传统的K-medoids算法和SOM算法;第四章主要说明了本文提出的基于SOM算法与K-medoids算法的改进聚类算法并比较了传统的K-medoids算法、SOM算法和SOM-K算法对鸢尾花数据集的聚类结果,证实了SOM-K算法是优于传统的K-medoids算法和SOM算法的一种算法;第五章用SOM-K算法对于全国水资源分布进行聚类分析并结合分析结果给出详细的结论阐述;第六章进行总结与展望,阐明改进算法的优势与不足,以便后续继续学习与探究。