分布式数据挖掘的分类器组合问题及相关技术研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:fbhww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速普及,挖掘分布的数据已经成为数据挖掘领域面临的一个主要挑战。由于节点是物理分布的,处理的是海量数据,同时还要兼顾数据的安全性以及非共享数据的隐私性,分布式数据挖掘(DDM)对多个节点上生成的挖掘模型进行集成的挖掘方式,已经得到越来越多的重视。对于分类问题的分布式挖掘,需要引入分类器组合技术来实现。Stacking框架是其中较有代表性的一种分类器组合方法。本文主要对基于Stacking的分类器组合方法在分布式数据挖掘应用中所面临的一些问题和相关技术进行了研究和探索。所做的具体工作包括: 针对Stacking在分布式挖掘应用中的特点和问题,本文设计了一个用于分布式挖掘的分类器组合框架。该框架采用10-交叉验证方法来消除“用训练数据进行测试”的现象,保证得到的1-层泛化特征反映的是所有本地分类器对样本真实的分类行为。 此外,由于Stacking的性能往往依赖于高维的特征空间,因此它在大规模节点挖掘的应用中需要解决可扩展性问题。基于类的1-层泛化特征能够较好地解决该问题,但它的泛化精度相对较差。本文在对Stacking的1-层泛化机理进行深入研究的基础上,依据分类器泛化性能存在差异的原理,利用分类准确率作为权重值,改进了基于平均后验概率的类向量方法,使得1-层分类广西大学硕士学位论文分布式数据挖掘的分类器组合问题及相关技术研究算法能够更加重视准确高的0一层分类器对样本的预测;其次,本文根据投票表决的原理,提出了基于二分判决的类向量方法,以O一层分类器对每个类预测的二分判决形式表示,通过实验证明它比基于后验概率的类向量方法有更好的分类精度;最后,为克服二分判决的不足,本文还提出基于投票的类向量方法,对0一层分类器的预测实行“投票但不表决”,由1一层分类算法来完成对投票情况的归纳。实验对比测试表明,这一方法在具有明显类分布倾斜的数据集上有很好的泛化效果。 本文的研究工作为实现分布式的分类挖掘,提高挖掘效率提供了理论依据,对分布式数据挖掘在算法扩展的研究与应用上具有科学的参考价值。
其他文献
移动通信已经迈入了3G时代,WCDMA作为3G的三个标准中最早,最完善的标准为3G运营商所广泛选用。目前我国也即将发放3G牌照,因此WCDMA网管系统的开发具有很强的现实意义。在网
随着计算机技术的快速发展,应用领域迅速扩大,软件规模及复杂性的不断提高,软件危机愈加明显地暴露出来,提高软件生产率成为软件产业的当务之急。软件复用是软件工程的重要领域,被
基于图像序列跟踪目标的运动是计算机视觉的基本问题之一,它在图像及影片的重建、视频监控、医学图像分析及运动重建方面,都有广泛应用。在该领域常用的方法有利用Kalman滤波
本论文分析了良好的物流数据交换技术对于当今企业发展的重要性。总结了国内外数据交换技术发展的现状。并构建了基于XML的物流数据交换中心。主要工作涉及以下几个方面: 1
随着Internet的飞速发展和普及,Web应用呈现出多功能化发展趋势,同时对Web应用框架支持多界面性、可扩展性、易维护性提出越来越高的要求。然而,目前面向过程的Web应用技术很难
基于混沌的数字图像加密算法中,序列流式加密算法是主流研究方向。目前的算法生成的密文只与生成的密码序列值相关,是由一个密钥决定的从明文空间到密文空间的可逆变换,虽然
互联网拥有全世界最全最大的信息资源,丰富的资源给人们的生活和学习带来了便利的同时,也引发了信息过载的问题。如何让没有明确目标的用户能准确找到满意的信息资源,成为目前信
据统计,一个组织的数据量每5年翻一番,如何管理这些庞杂的数据并使之用于决策支持就成为每个组织的迫切要求。数据仓库(Data Warehouse)技术就是在这样的要求下产生并发展起来
随着Internet的发展和电子技术的不断进步,人们将Internet的触角伸向了工业控制领域,Internet进入“嵌入式Internet”时代。利用MCU实现嵌入式Internet方案的技术难点在于如何
该课题的开发旨在充分利用中、小规模高校现有的软、硬件条件和网络资源,在没有太多投资的情况下,建立起一个基于Internet的科研管理系统.该文的主要特点表现在:1.针对中、小