论文部分内容阅读
随着信息技术的进步及其在各个领域中的普及,在数据挖掘许多应用领域中每天都有大量的数据产生而且数据的维度也达到成千上万维,甚至更高。与低维空间相比,高维空间中数据的表现有很大的不同。在高维空间的许多情况下,数据的子结构通常只由一些低维子空间所识别,且不同类别数据所在的子空间也有可能存在比较明显的差别。传统的数据挖掘分类和聚类算法在低维数据上有良好的性能,但是由于受到“维度灾难”的影响,当这些方法被应用到高维数据时往往难以达到预期的效果。所以,根据数据在不同领域上的特点以及应用的实际要求,构造高效的高维大数据挖掘算法有着十分重要的理论与现实意义。目前,子空间学习方法在处理高维数据时表现出了优越的性能,而集成学习方法因其良好的泛化能力,在解决分类和聚类问题时,不论是从分类和聚类性能还是计算性能,都具有比其他传统单一的数据挖掘算法更大的优势。因此,本文以高维数据的分类和聚类问题为研究对象,以子空间学习和集成学习为工具,以提高整体的分类和聚类性能为主要目标,提出了一些新的解决分聚类问题的方法。本论文的主要贡献包括:1.分布式属性加权子空间抽样随机森林算法提出并实现了一种基于R平台的属性加权子空间抽样随机森林的并行分布式算法wsrf。属性加权子空间抽样的随机森林算法在每次节点分裂时计算属性的信息增益率,并以此作为属性的权重,在构建属性子空间时采用加权抽样的方式,改进了传统随机森林在处理高维数据时随机属性抽样导致性能下降问题。本文针对属性加权子空间随机森林算法的特点,结合多线程分布式工具,提出并实现了基于R平台的并行分布式算法,弥补了现有R平台缺少有效地针对高维大数据的并行分布式随机森林算法的不足,大大提升了在R上进行高维大数据随机森林建模的性能。2.基于双向聚类的属性子空间分层抽样随机森林算法在wsrf的思想的基础之上针对超高维数据,进一步提出了一种基于双向聚类的属性子空间分层抽样随机森林算法SCRF。该算法结合属性置换重要度和双向子空间聚类算法,得到多个能够反映数据内部结构的属性组,然后分别从多个属性组中通过随机采样的方式构建属性子空间来构建随机森林。这样得到的属性子空间不仅保证了跟目标属性不同类别之间密切相关的子空间的代表属性能够在节点分裂时被抽取到,还保证了模型的多样性。实验结果表明,SCRF算法相比于其他随机森林算法,具有明显的优势,尤其是超高维数据。3.双层表达的组变量加权子空间聚类集成学习方法针对高维稀疏文本数据聚类问题,提出了一种双层表达的组变量加权子空间聚类集成学习方法ENLDA-BFGKM。该方法在LDA-FGKM算法的基础之上,利用LDA主题模型从文本数据中获取词条的主题信息作为词条的分组特征,然后在词条和分组的双层特征表达上利用我们改进的加权子空间聚类集成方法,有效地解决了原有LDA-FGKM算法的不稳定性,显著地提升了算法在处理高维稀疏文本数据时的性能。4.面向非平衡数据聚类分层抽样集成学习方法针对非平衡数据,提出了一种基于数据聚类的分层抽样集成学习方法,该方法首先对数据集进行多次聚类得到多个聚类结果,然后根据聚类结果中各个簇类的熵值将其进行分组。最后采用分层抽样的方式从各个分组中对数据集进行采样,从而得到能够反映数据集内在结构特点的多个数据子集来构建随机森林模型。实验表明该方法得到的数据集能够有效地提升随机森林算法在非平衡数据集上的性能。本文针对高维大数据的子空间集成学习,分别从分类、聚类、非平衡数据和并行分布式计算等方面进行了探讨,给出了四种方法。这些方法在一系列真实数据上的试验结果证实了方法的可行性和有效性,推动了高维大数据的分析进一步发展。