论文部分内容阅读
基于目标函数的聚类是一类重要的聚类分析技术,但其中几乎所有算法均是经非凸目标的优化建立,因而难以保证全局最优并对初始值敏感,影响聚类效果。近年提出的凸聚类通过优化凸目标函数克服了上述不足,同时获得了相对更稳定的解,故备受关注。本文将特定的数据结构信息结合到凸聚类,从半监督和鲁棒性两方面提高其性能,具体成果如下: 1.当现实中存在辅助信息(典型的如必连和/或不连约束)可资利用时,通过将其结合到相应目标所得优化模型已证明能提高聚类性能。然而,现有在目标函数中添加约束惩罚项的常用结合方式往往会破坏原凸目标的凸性。鉴于此,提出了一种新的结合此类弱监督辅助信息的凸聚类算法,实现的关键是代替在目标函数中添加约束,而是通过对目标函数中距离度量的改造以保持凸性,由此既保持了凸聚类的优势同时有效提高了聚类性能。最后,通过在模拟数据集和真实数据集上的实验证实了算法的有效性。 2.现实聚类场景易混入离群点,凸聚类对于此类受污染数据非鲁棒,导致结果出现较大偏差。鉴于此,提出一种对离群点鲁棒的凸聚类算法。具体地,将原数据模型拓展为干净数据与稀疏离群点的和,并在目标函数中添加Lasso类型的正则化项以反映离群点的稀疏性。由此,不仅能很大程度地抵制离群点的负面影响,而且保持了凸聚类的优势。进一步地,通过一个基于块坐标下降的具有收敛性保证的算法实现优化,并发现算法通常经少数迭代次数达到收敛。最后,算法的有效性和鲁棒性通过在模拟数据集和真实数据集上的实验得以验证。