基于偏差抽样方法的分布式数据流集成分类学习方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:kary_yeah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全球随时随地都在产生着各种各样的数据,例如股票市场的交易数据、电子商务的订单数据、科学卫星的探测数据等等。这些数据都不是固定在某个地点,而是根据所属的应用种类通过计算机网络传输到其他多个地方的,这样就形成了数据流的形态。而这些数据流往往具有典型的分布式特征,在网络中穿梭往来,并传输到不同的地方,进而就形成了分布式数据流的形态。与单数据流挖掘相比,分布式数据流需要分布式的挖掘构架,具有对分布式数据流挖掘的能力。  在当前数据挖掘领域,大规模数据集日趋普遍,其中大多数是有大量的数据记录和很高的维度。大规模数据集有着很大的内在复杂性,这导致在使用特定的数据挖掘方法(如分类)对一个给定的数据集进行挖掘处理时,经常不是在整个数据集上进行挖掘处理,而是把抽样技术引入到数据挖掘的过程中。先抽取出样本数据,然后在样本数据集上进行数据挖掘处理,最后根据挖掘处理结果来推测出原总体数据集的概念情况。本文针对基于密度偏差抽样方法的分布式数据流集成分类学习方法进行了如下研究。  首先,在数据流的环境下验证了应用偏差抽样方法对精简数据集后的样本数据集各项指标的影响。在同构的分布式数据流的环境下,基于密度偏差抽样方法,使用了一个分布式数据流的框架,局部节点收集数据,并应用密度偏差抽样方法精简数据集后把样本数据集传输到中心节点去,中心节点收集综合各个局部节点传上来的样本数据后,学习出决策树分类器,并反馈到局部节点去评价分类器的各项指标,分析密度偏差抽样方法的各个参数值的取值对分类精度和效率的影响,最终希望能得到评价指标较好的参数值。  然后,在分布式数据流环境下,中心节点应用集成分类学习方法,维持一组分类器,运用多种策略来研究基于分类精度加权的集成分类器集合的全局模式维护更新。  最后,在各项实验的验证下,表明密度偏差抽样技术可以在分布式数据流分类研究中有很好的应用。
其他文献
随着信息技术的不断发展和计算机网络的广泛普及,使得人们对信息安全的重视越来越高。而目前针对信息的保护主要基于系统的安全和网络的安全。本文主要是针对系统设计的安全进
为了解决传统BIOS所面临的问题,Intel推出了统一可扩展固件接口(UEFI)的规范标准,定义了操作系统与平台固件之间的可扩展接口。目前,UEFI BIOS凭借自身的模块化、易扩展、预启动
深层神经网络是一种高变度的函数(highly-varying function),与许多经典的浅层结构算法相比,以深层神经网络为代表的深层结构有很多优点,近年来引起了极大的关注,并且在逐步在分
学位
随着信息与网络技术的快速发展,大数据已经影响到每一个行业。大数据的价值在于从各种类型的数据中快速获取有用的信息,而数据预处理是整个大数据处理周期中至关重要的环节,高质
Web服务是一种新兴的Web应用方式,是一个崭新的分布式对象模型,近年来得到了迅速的发展。随着其应用范围以及Web服务动态组合需求的扩大,Web服务的发布与发现,已经成为Web服务系
随着计算机技术、互联网络和移动网络技术的快速发展,信息的存储容量和传送能力不断提高,电子商务、普适计算、社交网络、物联网、云计算等各种形式的网络应用不断出现并得到快
最优化问题是工程实践和科学研究中普遍存在的问题,其中多目标优化问题是指那些需要同时优化多个目标的问题。一般来说,这多个目标是相互冲突的,因此,和单目标优化不同,多目标优化
模型检测是自动化地验证系统行为满足给定性质的一种技术。它的基本做法是通过对系统所有可能的行为进行探索来证明系统满足给定的性质。模型检测面临“状态爆炸”问题,即系统
随着社交媒体的快速发展,基于用户的情感分析逐渐引起了研究领域的关注。情感分析指的是根据用户在社交媒体上评论自动地分析出用户情感极性。然而,用户仅仅在他们比较关心或者