论文部分内容阅读
乜速发展的计算机技术,使得越来越多的数据信息充斥在人类生活的各个角落。如何更好的解决大规模和高维度的数据信息的检索问题,不但能将样本信息、按照对象间的相似度划分,而且能快速的选出代表样本集的类代表点,学者提出了一种新的算法一仿射传播聚类算法。已经有文献证明,标准的仿射传播算法不仅在聚类规模上超过了经典的K均值算法,而且在聚类时间上更是略胜一筹。传统的仿射传播算法计算样本点之间的相似性采用的是将样本点所有的特征都等同看待的欧式距离函数,采用何种距离测度,才能更好的反应样本空间的特征,本文正是针对此问题,采用几种不同的距离函数计算样本集的相似性,并比较了每种算法的聚类结果,最后就如何提高算法的聚类速度问题,对偏向参数的搜索策略做了相关的改进。本论文阐述并总结了标准的仿射传播算法的基本原理,重点分析了算法的几个重要参数。现有的对标准算法的一些改进算法大都采用欧氏距离函数计算数据点之间的相似性,算法比较单一,有时无法反应样本集的真实的空间特征。本文针对不同空间特征的数据集,采用了三种距离函数:欧氏距离、曼哈顿距离以及特征距离分别计算不同维度下的数据点集,以及图像的灰度矩阵的相似度,然后采用标准的仿射传播聚类算法进行聚类。实验结果表明,对于不同的特征空间应该采用不同的距离函数计算样本集的相似度矩阵,才能得到更高质量的聚类结果。传统的仿射传播聚类算法采用顺序查找法查找聚类质量最高的聚类结果对应的偏向参数,此方法花费的时间比较长,特别是在最坏的情况下,需要搜索整个偏向参数的空间。在追求聚类质量的前提下,为了提高聚类的速度,本文的第四章采用二分法的搜索策略查找最优的聚类结果对应的偏向参数,最后进行了仿真实验,从仿真结果中得出,改进后的算法与预期期望的结果相符,有效的降低了花费在迭代运算过程中的时间,提高了算法的聚类速度。