论文部分内容阅读
传统的聚类算法在以下两种情况下存在直接失效的风险:一是数据稀少或存在大量干扰数据;二是为了调控数据间的差异性,对数据集进行缩放。为了同时解决上述两个问题,提出了历史知识迁移准则与中心间距极大化准则,并将其运用到极大熵聚类算法中,称之为具备历史迁移能力的中心极大化聚类算法。算法有三大突出的优点:在当前数据稀少或存在污染时,算法有效利用了历史知识进行迁移学习,从而证明了较好的聚类有效性;在数据缩放到一定倍数时,传统聚类算法取得的类中心趋于一致,而算法利用类中心间距极大化准则,有效避免了类中心一致的问题;算法所