论文部分内容阅读
随着信息技术的快速发展,各行各业积累了大量的数据,如何帮助用户从这些数据中提取人们感兴趣的、隐含的、对决策有潜在价值的知识,已经成为信息技术领域的热点问题。作为一类新型的聚类分析方法,谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类的优点,且仅与数据对象的数目有关,而与数据的维数无关,因而可以避免高维特征向量所造成的奇异性问题。
谱聚类算法受到传统k-means算法的影响,不同的初始聚类中心将会得到不同的聚类结果,且易陷入局部最优解,收敛速度缓慢,同时聚类分组数k的确定直接影响了聚类的质量,如何自动确定聚类分组数k是谱聚类算法中一个关键问题。计算智能作为智能信息处理技术发展最有生命活力的研究方向,它模拟自然界生物体系和人类智能,用计算机来模拟和再现某些智能行为,主要包含遗传算法、人工免疫算法和蚁群算法等。
引入计算智能,本文主要针对谱聚类算法中初始化敏感问题,易陷入局部最优问题和如何自动确定聚类分组数k问题进行了较为深入的研究,主要内容如下:
针对聚类算法对初始聚类中心敏感的问题,提出一种启发式初始化独立的k-means算法,并在此基础上提出了启发式初始化独立的谱聚类算法。
依据Prim算法选取k个初始聚类中心,同时考虑距离和密度因素,且通过设置阈值参数θ避免同一类中的多个数据对象同时作为初始聚类中心。实验结果表明,该算法通过谱映射达到了数据降维的目的,优化了原始谱聚类算法的初始中心选取策略,有效地避免了初始聚类中心选取的盲目性,快速地找到合适的初始聚类中心,而且降低了离群点数据对聚类性能产生的影响,有效减少了聚类的迭代次数,提高了运行效率。
引入遗传算法,提出了一种遗传优化的谱聚类算法,较好地解决了原始谱聚类算法容易陷入局部最优解的问题。实验结果表明该算法有效降低了随机初始输入数据对算法的影响,提高了算法的稳定性和聚类性能。
针对谱聚类算法中如何确定聚类分组数的问题,提出了用于自动确定聚类分组数k的免疫聚类两阶段模型,据此提出了一种自适应谱聚类算法。
该算法通过模拟初次免疫应答和二次免疫应答过程,实现了聚类分组数k的自动确定,并得到了相应的聚类中心,然后利用传统的聚类算法进行聚类。人工数据集和UCI数据集的实验结果表明,该算法不仅可以自动确定聚类分组数,得到合适的聚类中心,而且有效地消除了数据输入顺序对算法的影响,具有较好的扩展性,并可应用于增量样本数据的识别中。
分析社保审计中存在的问题和社保数据的特点,提出了一种基于聚类分析的社保联网审计分析模型,将自适应谱聚类算法应用到基本养老保险数据的审计中。实验结果表明,该算法可以自动确定合适的社保数据聚类分组数,且得到了较高的聚类准确率。通过对聚类分组进行分析,归纳总结了相关的社保规则,用于辅助社保人员做出审计判断,降低审计风险。