以KPCA为核心的FCM算法改进

来源 :成都理工大学 | 被引量 : 2次 | 上传用户:qwaxjl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Fuzzy C-Means(FCM,模糊C均值聚类)属于基于划分的聚类算法类别,自算法提出至今已40余年,众多学者深入研究发展出大量改进型算法,被用以分析处理来自各行各业、种类繁多的数据,是十分有效的数据处理分析工具。互联网、移动互联网技术正快速发展,聚类分析尤其是模糊聚类算法,作为数据挖掘的关键技术之一,具有巨大的发展潜力和研究价值。核函数理论诞生于一百年前,半个世纪后被应用于机器学习领域之中。1992年核函数被引入支持向量机理论,自此核函数与核技巧开始引起人们的重视,在很短的时间内广泛应用于各个领域。例如在FCM算法中引入核技巧,得到Kernel Fuzzy C-Means(KFCM,核模糊C均值算法)算法。虽然核函数理论推导十分复杂,但其使用却十分简便。简单来说,核技巧即使用核函数计算高维样本点内积,以之表示低维样本点相似性。利用核函数可以使用低维样本运算表达高维空间的内积,因此可以方便地对高维空间数据进行操作,甚至无需知晓高维空间的具体情形。Principle Compnent Analysis(PCA,主成分分析)方法是特征提取技术的一种。它使用数据的原始特征线性构造新特征并保留主要部分,以此消除特征间的冗余和噪音,达到数据降维的目的,但适用范围十分有限。Kernel Principle Compnent Analysis(KPCA,核主成分分析方法)将核技巧引入PCA方法,拓展了PCA方法的适用范围并赋予其新的功能。在深入研究以上三种方法和理论的基础上,本文详细解释了FCM算法和KPCA方法的优势与缺陷,将二者进行有机结合,提出基于KPCA的密度均衡FCM算法(KPCA-DBEFCM),和基于KPCA的聚类数自动调整算法(KPCA-NCAA)。本文针对各创新点设计了基于Matlab7.11的模拟实验,使用人工数据集模拟多种实际应用中可能遇到的情况,较为全面地检验了文中提出的方法。对实验结果进行了分析总结,阐明了方法的有效性和存在的缺陷,说明了进一步改进的方向。实验结果表明,本文提出的KPCA-DBEFCM算法成功地对FCM算法进行了均衡化改进,可以有效地对非均衡数据集进行正确聚类;KPCA-NCAA算法能够有效地处理目标聚类数设置过多的情况,能够将结果类别数调整为与数据集固有结构一致,即调整到最佳聚类数。KPCA-DBEFCM算法可以根据具体的非均衡状况容易地对算法进行修改,具有进一步研究发展的潜力。算法创新性地利用数据集密度信息构造均衡项,此种利用方式具有一定的参考价值。KPCA-NCAA算法是对KPCA方法的创新性利用,本文从理论上详细分析了在FCM算法聚类结果隶属度矩阵上使用KPCA方法的可行性与具体含义,并阐明使用该方法的前提与局限性。在理论分析过程中,将隶属度矩阵与原始数据矩阵放在同等地位对待,使用类特征子空间对算法功能进行分析,具有一定的参考价值。
其他文献
互联网的发展极大地改变着人们的生活。搜索引擎帮助人们在浩瀚的信息海洋中找到需要的信息,发挥着十分重要的作用。随着网络服务的不断丰富,搜索引擎也向着个性化、多元化等方
在企业的信息化过程中,随着企业规模的扩大和计算机技术的发展,不同时期构建的信息系统可能基于各种不同平台,结果造成相互间的数据交流效果很不理想,形成了相互隔离的“信息孤岛
本文研究时延最小花费在线匹配(MPMD)问题,其中请求以在线的形式到来,算法需要实时地进行决策,使得请求在尽量短的时间内两两匹配。不同类别的请求匹配会产生空间开销,延迟匹配会
随着计算机科学的不断发展,越来越多的人机交互系统开始采用人脸这种新颖的生物特征作为其交互的依据,如人脸识别、人脸确认和人脸表情识别。相比指纹,依靠人脸生物特征的系统由
随着我国经济的高速发展,环境污染问题日益突出,已经对生态系统、食品安全、人类生存构成严重的威胁,环境保护刻不容缓。作为环保工作的数据来源、污染度量、决策管理的依据以及
未知环境中的机器人地图探测问题是机器人领域的关键问题之一。随着机器人应用范围的不断扩大,对机器人在未知环境中自主完成相应的任务需求越来越多,而在未知环境中进行自主地
科技发展日新月异,如今互联网已经延伸到了我们生活的每个角落,它改变了我们的生活方式。但是在互联网带来巨大生产力效应的同时,大量不良黄色淫秽信息充斥着网络空间。其中图像
内存空间始终是计算机系统最重要的资源。有限的内存资源需要小心保存和适时回收。对内存空间最主要的耗费一般就是创建对象。当应用程序不再需要使用创建的对象时,就需要释放
在信息安全越来越难以保证的今天,操作系统易用性和安全性的矛盾日益突出,主流操作系统虽有很好的易用性,但是其安全性不强;而自主设计的安全操作系统因应用软件的不足而表现出较
统计学习理论是基于有限训练样本情况下的机器学习理论,通过控制学习机器的复杂度从而实现对学习机器推广能力的控制。支持向量机是基于统计学习理论的一种新的机器学习方法,它