论文部分内容阅读
随着计算机、互联网、大数据以及人工智能等技术的发展,出现了越来越多的高维数据。典型的高维数据场景包括金融投资领域中的资产组合分析、信用违约分析;计算机领域中的图像识别、文本分类;生物领域中的基因表达数据等等。各个领域出现高维数据的原因都是为了试图表达出更多的信息,比如在资产组合分析中,往往有许多种选择和决策方式,每种选择和决策方式都有各自的收益亦有各自的风险,在研究与选择资产组合的时候,研究机构将越来越多的变量考虑进来,试图更准确地刻画风险收益模型。高维数据中的有价值特征通常隐藏在原始特征空间中的不同的低维子空间,在金融、保险、证券等行业中,通过对高维数据进行聚类,识别出收益和风险,或通过聚类进行客户分类,正变成经济生活中的热门课题。常规的聚类分析方法通常将数据对象全部属性考虑在内,然而在聚类分析中,随着数据维度的增加会产生各种问题,如样本量需要指数级增长才能避免观测空间变得稀疏(然而这通常难以做到),以及零差距问题、维度有效性问题、维度相关性问题等等。这些传统聚类分析方法难以处理的问题被统称为“维度灾难”,如何有效地解决“维度灾难”的影响一直是近些年来学界所研究的热点内容。本文主要从技术角度对高维数据下的聚类问题进行分析,首先对基于模型的聚类算法进行了全面的阐述,然后介绍维度灾难问题以及基于模型的聚类算法在维度灾难下会因为对协方差矩阵的估计过度参数化而失效。解决高维空间聚类最常见的方法就是降维,接着介绍了主成份分析(PCA)、多维缩放(MDS)等四种经典线性降维算法以及核主成份分析(KPCA)、等距映射(ISOMAP)等四种非线性降维算法。这些传统降维算法的缺点在于都是将原始特征空间全局降到了同一个子空间中,并没有考虑到接下来的聚类任务,可能会丢失有用的信息特征,进而破坏了原有的聚类结构。近年来,子空间聚类技术的提出进一步克服了以往方法的局限性,子空间聚类算法尝试在相同数据集的不同子空间上进行聚类,并在聚类的同时实现数据降维,不仅提高了分类的正确率,还有效地解决了高维数据维度灾难的问题。本文介绍了若干模型聚类的子空间聚类算法,主要包括混合因子分析模型(MFA)、拓展的简约高斯混合模型(EPGMM)、高维高斯混合模型(HD-GMM)和判别潜在子空间混合模型(DLM)。其中MFA模型主要是将高斯混合模型与因子分析结合得到,能够同时实现降维与聚类的作用。EPGMM模型需要在混合因子分析模型的基础上,引入了一个修正的因子分析协方差结构,通过限制这个结构的某些方面,推导出了一系列子模型。高维高斯混合模型不再以因子分析为基础,而是用子空间聚类方法和简约高斯混合模型相结合的思想实现边聚类边降维的效果。判别潜在子空间混合模型将数据拟合在一个潜在的标准正交判别子空间中,这个子空间的本征维度小于原始空间的维数并且该子空间对于所有类簇都是一样的。通过约束组内和组间的模型参数,DLM也推导出了一系列子模型以适应不同的情况。最后,在真实数据集上所做的实例分析表明,子空间聚类算法和传统方法相比更适用于高维小样本的数据。一是因为子空间聚类算法的协方差结构的参数和原始维度之间存在线性关系,通过控制协方差的结构可以放宽样本量上的限制。二是子空间聚类算法能够找出隐藏在原始特征空间中的不同的低维子空间,提高了分类正确率。当出现低维子空间相同的情况时,子空间聚类算法的降维策略会退化成全局降维算法。