论文部分内容阅读
近些年来,高维聚类的变量选择问题受到了广泛关注。在删除冗余变量的问题上,基于罚模型聚类框架的变量选择算法研究有很大的进展,成为高维聚类变量选择中的重要研究方向。高维罚模型聚类变量选择的关键问题是罚函数的选取。对普通似然函数模型增加罚函数,可以达到删除冗余变量的目的。而如何在删除冗余变量的同时,识别非冗余变量的聚类作用是一个更为普遍的问题。在这个问题上已有的研究只考虑了各类数据同方差的情况,采用的是成对均值的一模罚函数。但在实际数据中,异方差情况是更为普遍的数据现象,而且同方差聚类模型并不适用于异方差数据。本文主要针对异方差数据高维聚类的变量选择问题,提出一种基于混合分布的异方差聚类模型,给出模型的算法。设计数据模拟实验,比较了该模型与同方差罚聚类模型的聚类效果。模拟数据分析结果表明,新模型在异方差数据上有更好的表现。