论文部分内容阅读
随着Internet的迅速普及,挖掘分布的数据已经成为数据挖掘领域面临的一个主要挑战。由于节点是物理分布的,处理的是海量数据,同时还要兼顾数据的安全性以及非共享数据的隐私性,分布式数据挖掘(DDM)对多个节点上生成的挖掘模型进行集成的挖掘方式,已经得到越来越多的重视。对于分类问题的分布式挖掘,需要引入分类器组合技术来实现。Stacking框架是其中较有代表性的一种分类器组合方法。本文主要对基于Stacking的分类器组合方法在分布式数据挖掘应用中所面临的一些问题和相关技术进行了研究和探索。所做的具体工作包括: 针对Stacking在分布式挖掘应用中的特点和问题,本文设计了一个用于分布式挖掘的分类器组合框架。该框架采用10-交叉验证方法来消除“用训练数据进行测试”的现象,保证得到的1-层泛化特征反映的是所有本地分类器对样本真实的分类行为。 此外,由于Stacking的性能往往依赖于高维的特征空间,因此它在大规模节点挖掘的应用中需要解决可扩展性问题。基于类的1-层泛化特征能够较好地解决该问题,但它的泛化精度相对较差。本文在对Stacking的1-层泛化机理进行深入研究的基础上,依据分类器泛化性能存在差异的原理,利用分类准确率作为权重值,改进了基于平均后验概率的类向量方法,使得1-层分类广西大学硕士学位论文分布式数据挖掘的分类器组合问题及相关技术研究算法能够更加重视准确高的0一层分类器对样本的预测;其次,本文根据投票表决的原理,提出了基于二分判决的类向量方法,以O一层分类器对每个类预测的二分判决形式表示,通过实验证明它比基于后验概率的类向量方法有更好的分类精度;最后,为克服二分判决的不足,本文还提出基于投票的类向量方法,对0一层分类器的预测实行“投票但不表决”,由1一层分类算法来完成对投票情况的归纳。实验对比测试表明,这一方法在具有明显类分布倾斜的数据集上有很好的泛化效果。 本文的研究工作为实现分布式的分类挖掘,提高挖掘效率提供了理论依据,对分布式数据挖掘在算法扩展的研究与应用上具有科学的参考价值。