论文部分内容阅读
“物以类聚,人以群分”,在自然科学和社会科学中存在着大量的聚类问题。聚类分析通过无监督的机器学习过程来发现大量不同数据之间隐藏的复杂知识模式,源于数据挖掘、机器学习、模式识别和统计学等多个学科。在过去几十年里,聚类广泛地应用于计算机科学、生物学以及经济学等多个领域。随着信息技术的迅速发展,传统的聚类方法已经很难处理大规模、复杂结构的数据,故一些现代智能化的聚类算法应运而生。其中粒子群优化算法在处理大规模数据的聚类问题上独树一帜,它的分布性和自组织能力使其具有很强的适应性和鲁棒性。然而传统的粒子群算法难以解决簇的数量不确定、初始聚类中心选取随机化、容易陷入早熟陷阱等问题,因此在很大程度上影响了聚类分布的均匀性、分散性以及聚类的效果。为此,本文提出了一种改进的粒子群聚类算法。该算法改进了粒子群的粒子编码模式以实现可变维粒子,从而解决了聚类数量在搜索过程中无法变动的问题;改进了初始种群的构造方法,即采用基于参考点的K密度聚类算法构造初始聚类中心,使初始聚类能够均匀分散地分布在高密度数据区域,解决了初始种群随机化的问题;在粒子群的迭代过程中,设计了基于维度增量变异算子的维度更新策略,使维度较差的粒子在收敛时能够尽早地更新其维度以向最优维度的粒子移动,从而使得数据集可被划分为聚类数量最优的多个簇;并针对维度较差的粒子,提出了基于K密度的分裂合并簇方法进行粒子变异,以使聚类中心仍然位于数据空间的高密度区域,从而解决了传统粒子群聚类算法的聚类分布不均匀,难以得到最优聚类数量的簇,聚类效果不够好等问题。实验结果表明,改进后的聚类算法的聚类均匀性更好,解的精度更高,稳健性更强,效率更高,更适合于处理高维空间、数据分布不均匀的聚类问题,且具有对“噪声”数据不敏感的特点。在后续的研究工作中,将在处理“噪声”数据的问题上继续改进聚类优化算法,并进一步加快算法在高维数据空间的搜索速度,提高聚类划分的质量。并在此基础上,利用改进的算法解决实际应用中的聚类问题。