面向高维大数据的子空间集成学习方法研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 3次 | 上传用户：hhgzju1

【摘要】

：

随着信息技术的进步及其在各个领域中的普及,在数据挖掘许多应用领域中每天都有大量的数据产生而且数据的维度也达到成千上万维,甚至更高。与低维空间相比,高维空间中数据的

【作者】

：

赵鹤

【出处】

：

中国科学院大学(中国科学院深圳先进技术研究院)

【发表日期】

：

2017年01期

【关键词】

：

高维子空间集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的进步及其在各个领域中的普及,在数据挖掘许多应用领域中每天都有大量的数据产生而且数据的维度也达到成千上万维,甚至更高。与低维空间相比,高维空间中数据的表现有很大的不同。在高维空间的许多情况下,数据的子结构通常只由一些低维子空间所识别,且不同类别数据所在的子空间也有可能存在比较明显的差别。传统的数据挖掘分类和聚类算法在低维数据上有良好的性能,但是由于受到“维度灾难”的影响,当这些方法被应用到高维数据时往往难以达到预期的效果。所以,根据数据在不同领域上的特点以及应用的实际要求,构造高效的高维大数据挖掘算法有着十分重要的理论与现实意义。目前,子空间学习方法在处理高维数据时表现出了优越的性能,而集成学习方法因其良好的泛化能力,在解决分类和聚类问题时,不论是从分类和聚类性能还是计算性能,都具有比其他传统单一的数据挖掘算法更大的优势。因此,本文以高维数据的分类和聚类问题为研究对象,以子空间学习和集成学习为工具,以提高整体的分类和聚类性能为主要目标,提出了一些新的解决分聚类问题的方法。本论文的主要贡献包括:1.分布式属性加权子空间抽样随机森林算法提出并实现了一种基于R平台的属性加权子空间抽样随机森林的并行分布式算法wsrf。属性加权子空间抽样的随机森林算法在每次节点分裂时计算属性的信息增益率,并以此作为属性的权重,在构建属性子空间时采用加权抽样的方式,改进了传统随机森林在处理高维数据时随机属性抽样导致性能下降问题。本文针对属性加权子空间随机森林算法的特点,结合多线程分布式工具,提出并实现了基于R平台的并行分布式算法,弥补了现有R平台缺少有效地针对高维大数据的并行分布式随机森林算法的不足,大大提升了在R上进行高维大数据随机森林建模的性能。2.基于双向聚类的属性子空间分层抽样随机森林算法在wsrf的思想的基础之上针对超高维数据,进一步提出了一种基于双向聚类的属性子空间分层抽样随机森林算法SCRF。该算法结合属性置换重要度和双向子空间聚类算法,得到多个能够反映数据内部结构的属性组,然后分别从多个属性组中通过随机采样的方式构建属性子空间来构建随机森林。这样得到的属性子空间不仅保证了跟目标属性不同类别之间密切相关的子空间的代表属性能够在节点分裂时被抽取到,还保证了模型的多样性。实验结果表明,SCRF算法相比于其他随机森林算法,具有明显的优势,尤其是超高维数据。3.双层表达的组变量加权子空间聚类集成学习方法针对高维稀疏文本数据聚类问题,提出了一种双层表达的组变量加权子空间聚类集成学习方法ENLDA-BFGKM。该方法在LDA-FGKM算法的基础之上,利用LDA主题模型从文本数据中获取词条的主题信息作为词条的分组特征,然后在词条和分组的双层特征表达上利用我们改进的加权子空间聚类集成方法,有效地解决了原有LDA-FGKM算法的不稳定性,显著地提升了算法在处理高维稀疏文本数据时的性能。4.面向非平衡数据聚类分层抽样集成学习方法针对非平衡数据,提出了一种基于数据聚类的分层抽样集成学习方法,该方法首先对数据集进行多次聚类得到多个聚类结果,然后根据聚类结果中各个簇类的熵值将其进行分组。最后采用分层抽样的方式从各个分组中对数据集进行采样,从而得到能够反映数据集内在结构特点的多个数据子集来构建随机森林模型。实验表明该方法得到的数据集能够有效地提升随机森林算法在非平衡数据集上的性能。本文针对高维大数据的子空间集成学习,分别从分类、聚类、非平衡数据和并行分布式计算等方面进行了探讨,给出了四种方法。这些方法在一系列真实数据上的试验结果证实了方法的可行性和有效性,推动了高维大数据的分析进一步发展。

其他文献

英式住宅新演绎

<正>项目地址英国设计单位Pascoe Interiors Limited本案是业主Debbie和Calum位于英国的第二住所,他们和三个孩子常年居住在香港,偶尔会回英国小住,他们希望设计师能设计一座

期刊

休息区

人力资源管理信息化时代下人事外包业务的走向和定位

信息化时代下企业人力资源管理模式发生了变革,新媒体成为低成本人力资源管理的便捷和高效工具、低成本的社会化招聘模式推广更加高效并促使各部门承担更多招聘工作、MOOC的

期刊

信息化人事外包人力资源管理社会化招聘MOOC

中枢神经系统感染性疾病脑脊液检查的临床应用

<正>目前,对于中枢神经系统感染性疾病的诊断仍需依赖脑脊液检查结果,尤其是病原微生物的检查结果。不同炎症反应(包括细菌性、病毒性、肉芽肿性)脑脊液成分特点不同。一般病

期刊

中枢神经系统感染脑脊髓液微生物学技术聚合酶链反应综述

质朴北欧风

<正>北欧有着漫长的冬季,气温反差较大。但是这里森林茂密、水域辽阔,为设计师们提供了丰富的自然资源。他们不仅从美丽的大自然中汲取灵感,而且有效地利用这种天赋的资源,产

期刊

回归自然

农村集体经营性建设用地入市流转经验及对黑龙江省的启示

<正>集体经营性建设用地入市是土地改革的突破口,是未来农村土地市场的发展方向。农村集体土地入市流转有利于缓解土地市场供求矛盾,优化城市用地结构;有利于保护耕地资源,保

期刊

农村集体经营性建设用地入市入市流转农村集体土地用途管制集体建设用地流转黑龙江省农地流转

脊髓空洞症发病机制研究进展

<正>关于脊髓空洞症(SM)的探讨可追溯到300年以前,300年的时间里产生各种学说解释其发病机制。20世纪以来,对脊髓空洞症的认识逐渐转向对脑脊液动力学的研究,认为脊髓空洞的

期刊

脊髓空洞症病理学综述文献

女代表讲创新创业故事

“在大众创业、万众创新的时代，鼓励女性走向社会，依靠自身努力实现价值。”珠海格力集团董事长董明珠代表说。$$ 在3月7日召开的“贯彻男女平等基本国策，促进妇女发展”新闻

报纸

DMD基因点突变致Becker型肌营养不良症临床研究

研究背景DMD基因点突变,主要是无义突变,可以引起基因编码提前终止,使产生的目的蛋白不稳定而降解,导致临床症状较重的Duchenne型肌营养不良症,而在实际工作中可见临床表型为

期刊

肌营养不良杜氏肌营养不良蛋白点突变

改善沥青路面结构设计方法的新途径

<正>项目通过足尺路面环道结构响应观测、路面结构模型试验、典型路面材料模量应力依赖性分析、路面力学计算等手段,研究了沥青路面材料与结构非线性特性,揭示了不同荷载模式

期刊

沥青路面结构设计新途径复模量沥青混合料材料非线性力学分析长寿命沥青路面

独占鳌头的美国两栖战舰

<正> 美国两栖战舰全貌作为两栖战舰的鼻祖,美国海军半个多世纪以来一直十分注重两栖战舰的发展,建立了世界上规模最庞大、种类最齐全,装备最先进的两栖舰群。特别是冷战结束

期刊

两栖战舰直升机美海军气垫登陆艇两栖舰艇两栖攻击舰登陆作战海军陆战队员登陆舰

面向高维大数据的子空间集成学习方法研究

与本文相关的学术论文