基于核学习方法的聚类算法研究

来源 :兰州交通大学 | 被引量 : 5次 | 上传用户:majiguo1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一个多学科交叉研究领域,与机器学习和统计学紧密相关。作为数据挖掘核心内容之一的聚类是将物理或抽象对象的集合聚成由类似对象组成多个类的过程。这种方法所具有的“无监督”性,使它在机器学习、模式识别等众多领域有着重要的应用。近年来,随着统计学习理论的不断完善,基于核学习的方法不断提出。本文以聚类相关理论为基础,用核学习方法来处理数据挖掘中的聚类问题,并重点对核K-均值聚类算法和支持向量聚类算法进行研究。核K-均值算法首先将原空间中待聚类的样本经过一个非线性映射,映射到一个高维的核空间中,然后在这个核空间中进行K-均值聚类。由于经过核函数的映射,使原来没有显现的特征突现出来,从而能够更好的聚类。在统计学习理论的基础上,支持向量机是20世纪90年代中期提出的一种新的机器学习方法,它将最大间隔原则和核函数理论结合在一起,有效解决了机器学习领域中的高维小样本学习难题。支持向量聚类是一种基于支持向量机的新颖聚类方法,与其它传统聚类方法相比较,该方法可调参数少,容易处理高维数据,能得到全局最优解,具有能处理任意形状的聚类且无需指定聚类数目等优点。本文主要研究成果包括如下几个方面:(1)研究了层次聚类,K-均值聚类和自组织映射聚类3种经典聚类算法。(2)基于经典的K-均值聚类算法和支持向量机理论,在核学习方法基础上,研究了核K-均值聚类算法以及支持向量聚类算法,并给出了一种改进的支持向量聚类算法。(3)为验证算法的有效性,使用人工数据集和标准数据集研究了核K-均值聚类算法以及支持向量聚类算法的性能。通过算法在不同参数下的性能分析,以及与经典聚类算法的比较实验,结果表明,上述基于核学习方法的聚类算法具有算法稳定性好,且聚类效果理想的显著优势。
其他文献
科学数据是科研工作者从事各种研究的基础,他们在无穷无尽的科学数据中发现新的规律,发现新的知识。而对科学数据的管理则是进行科学研究工作的重要保障,良好的管理可以加速科学
入侵检测是一种积极主动的安全防护技术,它可以监视主机系统或是网络上的用户活动,发现可能存在的入侵行为。基于系统调用序列的入侵检测方法是当前入侵检测技术中的重要技术
近些年,随着无线传感器网络的广泛应用,无线传感器技术引起了国内外众多学者的关注。其中,无线传感器网络的节能性和安全性是研究人员在设计和实现无线传感器网络时最为关心
数据可视化的目的就是借助计算机的图形图像处理能力,将数据和科学计算的结果用直观的图形或图像输出代替数字输出,缩短研究周期,提高研究效率。目前石油行业的可视化技术主要应
时序数据是按时间次序排列观测得到的数据集合,由于时序数据区别于普通数据,为了达到有效利用时序数据特征进行数据分析的目的,针对时序数据特征提取方法进行了深入研究,使用以下
数字图像抠图指的是将给定数字图像中的前景物体精细准确地抠取出来,是数字图像编辑与视觉特效制作中的基础操作。虽然目前已有一些数字图像抠图方法(如数字蓝屏抠图)被投入实际
在迅速发展的集成电路制造工艺和不断提高的应用需求的推动下,系统芯片(System-on-Chip,SoC)集成了越来越多的功能模块。随着片上通信结构逐渐成为达到预定系统性能的瓶颈,以通信
学位
高光谱遥感技术作为遥感领域的一项重大突破,在保留较高空间分辨率同时,光谱分辨率有极大的提高。这使得无论在描述同类地物的细节方面,还是识别不同类别地物的能力等方面都有大幅提高。然而,高光谱数据具有波段数目众多、各波段相关性强、运算量大的特点,这对相应的处理技术提出了很高的要求。本文主要针对高光谱遥感的一个重要应用——分类问题,展开系统的研究,从影响分类精度的几个关键要素入手,即特征空间的维数、图像空
随着Internet技术的不断发展,网络信息技术正日益广泛地渗透到社会生活的各个方面。作为一个企业的基本通信平台、协作工作平台和知识管理的平台,办公自动化系统也正在被不同
随着计算机网络技术的发展,安全问题日益突出。一个安全系统至少应满足用户对系统保密性、完整性以及可用性的需求。IPSec是IETF提出的IP安全标准,它在网络层对数据进行加密和
学位