基于计算智能的谱聚类方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:guhiayan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,各行各业积累了大量的数据,如何帮助用户从这些数据中提取人们感兴趣的、隐含的、对决策有潜在价值的知识,已经成为信息技术领域的热点问题。作为一类新型的聚类分析方法,谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类的优点,且仅与数据对象的数目有关,而与数据的维数无关,因而可以避免高维特征向量所造成的奇异性问题。   谱聚类算法受到传统k-means算法的影响,不同的初始聚类中心将会得到不同的聚类结果,且易陷入局部最优解,收敛速度缓慢,同时聚类分组数k的确定直接影响了聚类的质量,如何自动确定聚类分组数k是谱聚类算法中一个关键问题。计算智能作为智能信息处理技术发展最有生命活力的研究方向,它模拟自然界生物体系和人类智能,用计算机来模拟和再现某些智能行为,主要包含遗传算法、人工免疫算法和蚁群算法等。   引入计算智能,本文主要针对谱聚类算法中初始化敏感问题,易陷入局部最优问题和如何自动确定聚类分组数k问题进行了较为深入的研究,主要内容如下:   针对聚类算法对初始聚类中心敏感的问题,提出一种启发式初始化独立的k-means算法,并在此基础上提出了启发式初始化独立的谱聚类算法。   依据Prim算法选取k个初始聚类中心,同时考虑距离和密度因素,且通过设置阈值参数θ避免同一类中的多个数据对象同时作为初始聚类中心。实验结果表明,该算法通过谱映射达到了数据降维的目的,优化了原始谱聚类算法的初始中心选取策略,有效地避免了初始聚类中心选取的盲目性,快速地找到合适的初始聚类中心,而且降低了离群点数据对聚类性能产生的影响,有效减少了聚类的迭代次数,提高了运行效率。   引入遗传算法,提出了一种遗传优化的谱聚类算法,较好地解决了原始谱聚类算法容易陷入局部最优解的问题。实验结果表明该算法有效降低了随机初始输入数据对算法的影响,提高了算法的稳定性和聚类性能。   针对谱聚类算法中如何确定聚类分组数的问题,提出了用于自动确定聚类分组数k的免疫聚类两阶段模型,据此提出了一种自适应谱聚类算法。   该算法通过模拟初次免疫应答和二次免疫应答过程,实现了聚类分组数k的自动确定,并得到了相应的聚类中心,然后利用传统的聚类算法进行聚类。人工数据集和UCI数据集的实验结果表明,该算法不仅可以自动确定聚类分组数,得到合适的聚类中心,而且有效地消除了数据输入顺序对算法的影响,具有较好的扩展性,并可应用于增量样本数据的识别中。   分析社保审计中存在的问题和社保数据的特点,提出了一种基于聚类分析的社保联网审计分析模型,将自适应谱聚类算法应用到基本养老保险数据的审计中。实验结果表明,该算法可以自动确定合适的社保数据聚类分组数,且得到了较高的聚类准确率。通过对聚类分组进行分析,归纳总结了相关的社保规则,用于辅助社保人员做出审计判断,降低审计风险。  
其他文献
系统发育分析是生物信息学研究的重要领域之一,它主要研究同源的DNA或蛋白质序列,对这些序列进行进化分析,从而得到能够反映蛋白质序列或者DNA序列之间进化关系的系统发育进化树
自20世纪60年代以来,数据库技术开始被广泛地应用于国家政府机构、商业部门和科研机构等领域。随着时代的发展,特别是互联网技术的出现,这些领域的数据库的数据呈现近乎几何
随着物流产业的飞速发展,物流应急问题随之而来。如何制定有效的应急处理方案,及时处理突发事件,将事件造成的影响和损失控制在最低限度,已成为物流应急领域亟待解决的问题。
可再生能源的综合利用对我国社会经济的可持续发展和环境保护起着重要的作用。太阳能和风能是可再生能源中利用比较广泛的两种。太阳能和风能在资源条件和技术应用上都有很好的互补特性,在电能作为能量主要能量消耗形式的当今社会,综合考虑太阳能和风能在多方面的互补特性而建立起来的风光互补发电系统是一种经济合理的供电方式。该供电方式在解决边远地区的能源供应问题中发挥着积极的作用。由于风能和光能的随机性、间歇性,为满
随着数据库和网络技术的迅速发展,XML已经成为网络上信息表达和数据交换的事实标准。随着XML数据的不断增长,尤其是大规模XML数据的出现,如何对这些XML数据进行有效的管理和
随着计算机网络的快速发展,网络安全越来越受到人们的关注。公钥认证技术提供了对公钥的真实性和有效性的担保,目前存在三种公钥认证方式:基于证书的方式、基于身份的方式和基于
随着三维扫描和捕捉设备以及计算机建模工具的发展,可变形三维物体数据变得容易获取,并在广泛的领域得到应用。怎样对这些可变形三维物体进行统计建模以辅助应用已成为一个研究
神经网络机器翻译(neural machine translation,NMT)是一种新的基于编码-解码网络框架的机器翻译模型,其在各种翻译任务中都表现出了远远优于传统方法的性能。由于GPU内存和
传统分布式系统监控技术多关注位于同一物理区域内的分布式系统。随着分布式系统逐渐开始部署于全球不同地区形成广域分布式系统,目前的监控技术在安全性、网络通信及监控的
作为一个客户端的应用程序,浏览器是用户和因特网之间进行交互的一个重要平台。现在存在许多与浏览器密切相关的恶意攻击,对用户浏览器安全造成了严重的威胁。此外Web2.0因功能