论文部分内容阅读
聚类算法是一种重要的数据分析技术,在数据处理,文本分析,图像搜索等方面都有广泛的应用,因此受到人们的广泛关注。支持向量机(SVM)是一种新的有监督机器学习算法,具有良好的分类性能和泛化能力。Xu L.将支持向量机最优超平面理论推广到聚类算法,提出一种新的聚类算法——最大间隔聚类,该算法主要是对无标签样本,通过寻找一组最优的样本标签使得聚类后得到的两个样本簇之间的间隔最大,具有良好的聚类性能。然而,最大间隔聚类主要是针对两类问题的一种聚类算法,对两类问题有较高的聚类效率,本文从二叉树的构造出发,将该两类最大间隔聚类推广到多类聚类中,通过构造二叉树来将多类聚类分成多个两类最大间隔聚类,从而完成了最大间隔聚类的普遍性推广。本文在最大间隔聚类算法基础上,通过二叉树的构造,提出一种基于最大间隔的多类聚类算法。首先,本文对传统的聚类算法做了一个大概介绍,提出传统算法存在的一些问题;同时对SVM理论进行深入剖析,提出最大间隔概念,对SVM良好的有监督分类性能进行探讨并且将其推广到无监督聚类中。其次,对最大间隔聚类算法的具体原理和实现进行了详细说明,并且分析了算法的不足,提出一种改进算法并将改进的最大间隔聚类通过构造二叉树将其推广到多类聚类中,对本文的多类聚类算法步骤和算法流程进行了详细说明,最后,通过实验数据证明了算法的可行性,并且与传统K均值聚类进行聚类错误率对比,得出本算法有较低的聚类错误率。