基于模型的高维数据聚类方法综述

被引量 : 0次 | 上传用户:nqwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、互联网、大数据以及人工智能等技术的发展,出现了越来越多的高维数据。典型的高维数据场景包括金融投资领域中的资产组合分析、信用违约分析;计算机领域中的图像识别、文本分类;生物领域中的基因表达数据等等。各个领域出现高维数据的原因都是为了试图表达出更多的信息,比如在资产组合分析中,往往有许多种选择和决策方式,每种选择和决策方式都有各自的收益亦有各自的风险,在研究与选择资产组合的时候,研究机构将越来越多的变量考虑进来,试图更准确地刻画风险收益模型。高维数据中的有价值特征通常隐藏在原始特征空间中的不同的低维子空间,在金融、保险、证券等行业中,通过对高维数据进行聚类,识别出收益和风险,或通过聚类进行客户分类,正变成经济生活中的热门课题。常规的聚类分析方法通常将数据对象全部属性考虑在内,然而在聚类分析中,随着数据维度的增加会产生各种问题,如样本量需要指数级增长才能避免观测空间变得稀疏(然而这通常难以做到),以及零差距问题、维度有效性问题、维度相关性问题等等。这些传统聚类分析方法难以处理的问题被统称为“维度灾难”,如何有效地解决“维度灾难”的影响一直是近些年来学界所研究的热点内容。本文主要从技术角度对高维数据下的聚类问题进行分析,首先对基于模型的聚类算法进行了全面的阐述,然后介绍维度灾难问题以及基于模型的聚类算法在维度灾难下会因为对协方差矩阵的估计过度参数化而失效。解决高维空间聚类最常见的方法就是降维,接着介绍了主成份分析(PCA)、多维缩放(MDS)等四种经典线性降维算法以及核主成份分析(KPCA)、等距映射(ISOMAP)等四种非线性降维算法。这些传统降维算法的缺点在于都是将原始特征空间全局降到了同一个子空间中,并没有考虑到接下来的聚类任务,可能会丢失有用的信息特征,进而破坏了原有的聚类结构。近年来,子空间聚类技术的提出进一步克服了以往方法的局限性,子空间聚类算法尝试在相同数据集的不同子空间上进行聚类,并在聚类的同时实现数据降维,不仅提高了分类的正确率,还有效地解决了高维数据维度灾难的问题。本文介绍了若干模型聚类的子空间聚类算法,主要包括混合因子分析模型(MFA)、拓展的简约高斯混合模型(EPGMM)、高维高斯混合模型(HD-GMM)和判别潜在子空间混合模型(DLM)。其中MFA模型主要是将高斯混合模型与因子分析结合得到,能够同时实现降维与聚类的作用。EPGMM模型需要在混合因子分析模型的基础上,引入了一个修正的因子分析协方差结构,通过限制这个结构的某些方面,推导出了一系列子模型。高维高斯混合模型不再以因子分析为基础,而是用子空间聚类方法和简约高斯混合模型相结合的思想实现边聚类边降维的效果。判别潜在子空间混合模型将数据拟合在一个潜在的标准正交判别子空间中,这个子空间的本征维度小于原始空间的维数并且该子空间对于所有类簇都是一样的。通过约束组内和组间的模型参数,DLM也推导出了一系列子模型以适应不同的情况。最后,在真实数据集上所做的实例分析表明,子空间聚类算法和传统方法相比更适用于高维小样本的数据。一是因为子空间聚类算法的协方差结构的参数和原始维度之间存在线性关系,通过控制协方差的结构可以放宽样本量上的限制。二是子空间聚类算法能够找出隐藏在原始特征空间中的不同的低维子空间,提高了分类正确率。当出现低维子空间相同的情况时,子空间聚类算法的降维策略会退化成全局降维算法。
其他文献
【正】 心理学上将挫折解释为当一个人从事有目的的活动时,在环境中遇到障碍或干扰,致使其动机不能获得满足时的情绪状态。研究员工的挫折行为,对提高旅游饭店的经营管理及服
创建创业型城市,就是要充分调动各方面积极因素,构造一个创新的环境和氛围,激发起全社会的创造活力,让有利于创业的思想活跃起来,使劳动者的创业激情迸发出来,把各领域的创业
在经济发展动能依靠创新驱动产业结构升级的新阶段,制度基础是否为新动能提供了有效激励?基于2009—2016年中国内地省际数据,采用非线性面板门槛模型,实证研究市场化、政府创
英语教学要体现交际性,要结合学生的年龄特点和生活实际,创设交际情景,通过大量的语言实践,使学生获得综合运用语言知识和语言技能进行英语交际的能力。但是,对于我们的学生
采用恩智浦公司的集成式智能喷油驱动芯片MC33816,结合共轨喷油器的驱动要求设计一种柴油机共轨系统喷油器的智能喷油控制模块,能够实现对喷油器电磁阀的驱动和驱动电流的精
<正>1培田概况培田是一个只有三百多户人家,一千四百多人口,坐落在福建西部连城县的崇山峻岭中的普通村庄。现在,这个村庄只有一个姓氏——吴姓,并一脉相传了八百多年。培田
班主任工作是一门管理人的艺术,有许多管理之术值得我们去探讨、学习和实践。一个良好的班集体对于培养学生良好的品德和行为习惯,对于发展他们的智力和能力,促进他们健康、
目的:分析研究加味生化汤联合米索前列醇对预防高龄产妇前置胎盘产后出血的治疗效果。方法:选取86例前置胎盘患者产妇,患者均采用子宫下段剖宫产术,通过随机数表法分为观察组
房产测绘,具体而言属于专业测绘技术当中的重要分支,主要的工作内容为,针对房屋以及房地产用地的具体配置、环境状况、所属权限的具体应用情况实施系统的分析,以便对房产项目