论文部分内容阅读
聚类在模式识别、系统建模、图像处理及数据挖掘等工程领域扮演着重要的角色。其基本算法广泛应用于生命科学、医学、社会科学、地理科学、工程科学等领域。聚类就是将数据对象分组为多个类或簇,在同一个类中的对象之间具有较高的相似度,而不同类中的对象差别较大,它是一种典型的非监督学习算法。本文对几种聚类算法进行了研究。主要研究内容包括: 一、本文针对传统K-均值聚类算法的不足之处,提出一种K-均值改进算法。聚类过程中,当类在调整前后变动不大时,保持该类的类中心不变。因此不必重新计算该类中心及样本与该类中心的距离。实验表明改进算法在保证精度的情况下,有效节省聚类时间。 二、提出一种基于粒度的层次聚类算法。该算法在一次迭代中,将距离小于某一阈值的两个类视为当前粒度下的邻近类,并对所有邻近类进行合并。不断重复这个过程,直到满足要求为止。实验表明该算法较之传统层次聚类算法,大大加快聚类速度。 三、CURE算法用多个点表示一个类,受其启发,提出一种基于代表点的聚类算法。首先将大量样本划分成个数相对较少的原子类,然后将所有邻近的原子类及子类合并,得到最后聚类结果。实验证明该算法能够识别任意形状、大小的类别,过滤噪声点,并具有近似线性的时间复杂度。 四、结合层次聚类与K-均值核聚类的优点,提出一种新方法。首先抽取部分样本,进行层次聚类。将其结果作为初始类中心,再进行K-均值核聚类。实验表明该方法能够有效的提高聚类精度。