论文部分内容阅读
随着互联网的发展和信息时代的到来,各行各业产生了海量数据,如何从海量数据中挖掘出对人们有用的信息变得尤为重要。聚类分析技术是一种无监督学习方法,也是数据挖掘中常用的分析方法之一。现有的群体智能的自适应聚类算法存在寻优能力弱、聚类密集性以及聚类综合质量不高、普适性不强的缺陷。针对以上问题,本文提出了一种基于传粉策略的自适应聚类算法。此外,针对传统的选址算法存在需要指定聚类簇的个数以及参数较敏感的不足,提出了一种基于传粉启发聚类的商户选址方法。基于传粉策略的自适应聚类算法是受到自然界传粉昆虫与植物交互过程的启发而提出的一种生物启发式聚类算法,该算法不同于以往的群体智能算法,它不但避免了计算资源的浪费,还提高了运行效率。此外,算法中提出了两种位置更新策略使得数据点快速更新到适应度更高的位置,一方面,增强了算法的寻优能力,另一方面,提高了聚类密集性以及聚类综合质量。其中,在局部位置更新策略中,引入拉普拉斯特征映射算法中的热核函数以及邻接权值的应用,并结合均值偏移算法,不断更新数据点在二维网格中的位置,进一步增强了算法的适应性,使其适用于多种数据集。除此之外,在测试数据集验证了本文提出算法的有效性。由各个数据集上的实验结果表明,该算法在整体上具有比其他群体智能算法更好的稳定性、收敛速度以及聚类综合质量。最后,对算法的各个参数进行敏感性分析,使得参数的选择更加具有合理性。将本文提出的自适应聚类算法在基于速度以及剪枝处理后的Geolife数据集上进行仿真实验,验证了该算法在移动终端数据集上同样适用。另外,与其他选址算法对比,本文提出的聚类算法具有自适应以及对噪声点不敏感的优势。最后,根据实验结果并结合地理信息系统分析用户的生活习惯、消费水平等因素解决某商户的选址问题。