论文部分内容阅读
随着信息的飞速发展,海量的数据涌现出来。如何在这些海量数据中寻找高维数据,并在高维数据中快速挖掘有效的信息是当前最需要解决的问题之一。传统的聚类方法在处理高维数据时具有局限性。本研究在解决高维数据聚类问题中,提出了将抗噪约束结构引入到低秩表示子空间聚类算法进行聚类;以及将模糊不均匀聚类和人工蜂群算法两者优势融合实现聚类最优。本文的主要研究成果如下:(1)针对数据之间中心点选择敏感,提出了一种LLS-ACO动态多目标优化结合模糊不均匀聚类的算法。该方法融合两者优势,利用大量数据对指标参数聚类分析,实现聚类。本研究根据高维数据的分类对象是否有严格的属性界定,采用了不同的方法。当存在模糊性时,运用模糊不均匀聚类算法。由于传统的模糊聚类对原有中心点的选择具有局限性,而利用线性局部搜索的人工蜂群算法(LLS-ACO)可以对其优化。其随迭代次数呈线性规律的参数动态调整算法的局部优化效果,并将该算法改为动态多目标的形式,最终形成LLS-ACO动态多目标优化。对所提算法用于无线传感器网络(WSN)的应用上,进行深入的验证并与现有算法进行比较。实验结果显示,提出的算法有效的解决了WSN中寿命延长及热点消除的问题。(2)针对数据之间差异明显且有噪音和异常值,提出了一种抗噪结构约束低秩表示算法(RLRSI)。该算法通过构建亲和图和谱聚类两者融合在一个框架中来实现聚类。首先,把原始数据根据矩阵原理分解,重新组成数据字典。在初始算法时,采用SVD对高维数据的噪音有效降低,同时保留原始的信号,并以此筛除部分噪音。其次,利用数据间的低秩表示得到表示系数,采用拉格朗日乘子法和交替方向法构造亲和矩阵,反应出数据之间的特征。最后,将子空间聚类问题中的低秩表示求取数据表示的系数矩阵和系数矩阵构造亲和图两者结合,使两者在求解过程中相互受益,实现整体最优。将迭代优化后的低秩表示和抗噪结构约束相结合得到RLRSI方法,并验证所提算法的聚类效果。将所提算法在手写数据集以及典型的数据集上进行实验,结果表明该算法的有效性。