论文部分内容阅读
随着大数据时代的到来,互联网平台上每天产生的信息量是过去几十年甚至上百年的信息量的总和。如何将海量数据进行科学地获取、存储、查询、共享、分析及可视化,这已成为目前研究者重要的研究课题。数据挖掘是处理海量数据并提取有价值的关键信息的技术,聚类分析是其技术中一个极其重要的研究的部分。群智能算法作为新兴的启发式优化算法,能够很好地处理一些复杂优化问题,因此,将群智能算法和聚类问题融合已成为一个前沿研究课题。本文详细介绍了传统聚类算法和群智能算法的相关理论,与传统算法进行分析对比并找出不同算法的参数、使用度量、目标函数、关键步骤、循环条件等算法特性并对其相应的缺陷进行总结,提出了聚类综合算法。对教与学优化算法进行了分析与研究,提出了融合小生境和非递减策略的教与学优化算法,最后将改进后的教与学优化算法用于密度峰聚类算法中以解决聚类算法参数敏感问题。首先,提出聚类综合算法。直接对未被训练的数据样本进行建模,使整个数据集划分成由相似对象组成的带有类别标签的多个类别。其次,利用监督学习分类思想对少量的已有标签数据的几个类进一步的分类,训练成一个分类器,然后利用剩余的未标记样本来提高这个分类器的精度,进而减少计算代价,提高最后的数据聚类效果。其次,提出混合策略教与学优化算法。利用非线性递减策略分别改进教学阶段和学习阶段的学生状态更新方式,增大算法搜索范围,并在每次迭代更新后引入小生境选择策略,用来降低教与学优化算法过早地陷入最优解的可能性并增加种群多样性。最后,提出融合教与学优化算法和密度差距离的聚类算法。为了考虑数据点属性和邻域的影响,用密度差距离替代原有算法的欧氏距离,并且利用标准差值选择聚类中心。最后通过该算法寻找最优的dc值。