论文部分内容阅读
近年来,随着各种网络应用的涌现,网络在人们的生产生活中无处不在。诸如因特网、企业内部网、局域网、广域网和传感器网络等应用环境都会产生大量的数据流,而它们往往具有分布式的特征,如何快速有效地从这些分布式数据流中分析和挖掘出对人们有用的知识,变得越来越重要。分布式数据流挖掘以单数据流挖掘为基础,因此目前单数据流的研究提出的许多有价值的模型和算法为研究分布式数据流提供了必要的研究基础。 与单数据流挖掘相比,分布式数据流挖掘面临着新的挑战,同一时间或者时间段,多个节点都可能有数据到达,而且速率可能差异很大。同时针对分布式挖掘策略的选择需要考虑的以下几个主要因素,各个站点的计算能力,各个站点的存储能力,站点间的通信开销。因此需要提出适合分布式数据流挖掘的挖掘模型和算法。 本文的研究内容包括了数据流模型的构建、数据流挖掘方法的研究及分布式数据流挖掘框架的探索。基于数据流的特点,建立了基于数据选择的增量式数据流模型,通过构建数据选择的条件,可以实时挑选有价值的数据得以保留。同时提出了历史窗口和滑动窗口相结合的机制,即提高了数据流中数据的处理速度,又很好的减轻了站点的存储压力和计算压力。本文借鉴元学习过程的思路,提出了由三个步骤的组成的分布式元学习挖掘框架,即局部站点学习局部分类模型;基于局部分类模型生成元级的训练数据集;中心站点通过学习元级的训练数据集得出最终的分类模型。 分析了支持向量机(SVM)在分布式环境下进行模型集成的利弊,针对分布式环境下数据分析模型集成的问题和特点,基于支持向量数据描述(SVDD)算法,本文提出了增量式的局部站点支持向量数据描述算法和增量式的全局站点混合式支持向量机算法,分别部署在局部站点和中心站点上。局部站点学习算法负责学习出局部模式的同时,得到需传送到中心站点的元级数据(支持向量及决策超球面的半径和圆心信息),中心站点学习算法负责融合各个局部站点的元级数据,学习出全局模式,同时中心站点根据得到的全局决策超球面的信息指导局部站点的学习。 实验结果表明,本文提出的模型及算法可在局部站点快速更新局部分类模型和减少网络通信量的同时,也可获得较高精度的全局分类模型。