论文部分内容阅读
近年来,随着数据存储技术的飞速发展,各行各业均积累了宝贵的海量数据。那么如何高效利用“沉淀数据”辅助决策制定,进而推动经济社会发展业已成为亟需解决的问题。数据挖掘技术作为解决此类问题的有效方法,已经日臻成熟。它通过运用分类、预测、关联规则挖掘、聚类等多种分析方法获取大量数据中所隐藏的有用信息和知识。其中,聚类分析作为一种基础的数据挖掘方法,有着广阔的应用场景。在数据处理方面,它能够获取数据中所蕴含的知识模式对数据进行压缩。同时,在客户群划分、动植物种群分类、地理数据分析等众多业务领域也有广泛应用。因此,本文综合分析了国内外聚类分析方法的研究现状,并从复杂网络的角度出发,对基于同步理论的大规模数据聚类算法及其应用进行了深入研究,主要工作如下:1.结合聚类分析方法的基本工作流程,深入分析了聚类方法中常用的相似性度量指标和结果评价方法;根据聚类算法的不同思想,按照基于划分、基于层次、基于密度、基于模型的划分标准,总结了常见的聚类算法,并指出了各类算法的应用场景及相关代表性算法的具体流程;详细阐释了同步振子聚类算法的理论基础和算法的工作流程。2.研究了基于同步理论的金融网络社团检测。从股票市场入手,利用股票价格波动序列的相关性,计算股票关联矩阵。通过对股票关联矩阵的谱分析确定网络中是否存在相应的社团结构。然后,运用同步聚类算法对股票集合进行动态划分,由同步序参量确定算法收敛与否,以获取与数据集相适应的社团结构。在与快速社团检测算法进行对比实验后发现,基于同步理论的检测算法不仅能够获取正确的股票集合划分结果,且更符合股票行业分类。3.运用基于同步理论的聚类分析方法,结合视觉任务态下皮层神经元的脑电活动数据,研究了特定任务态下的脑网络功能连通性。根据脑电信号(electroencephalogram,EEG)采集实验的特点,对数据进行了相关预处理。然后,利用符号聚合近似(Symbolic Aggregation approXimation,SAX)算法度量其相似性。最后,运用同步聚类算法获取脑皮层区域的划分结果,进而通过研究皮层区域的相关性来分析功能连通性。综合Brodmann分区方案的解剖聚类结果研究发现,同步检测算法能够准确揭示“视觉选择性关注实验”所涉及的皮层功能区,以及相应的功能连通性结构。