基于SVDD的分布式数据流挖掘模型设计和算法实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:heiweifu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着各种网络应用的涌现,网络在人们的生产生活中无处不在。诸如因特网、企业内部网、局域网、广域网和传感器网络等应用环境都会产生大量的数据流,而它们往往具有分布式的特征,如何快速有效地从这些分布式数据流中分析和挖掘出对人们有用的知识,变得越来越重要。分布式数据流挖掘以单数据流挖掘为基础,因此目前单数据流的研究提出的许多有价值的模型和算法为研究分布式数据流提供了必要的研究基础。  与单数据流挖掘相比,分布式数据流挖掘面临着新的挑战,同一时间或者时间段,多个节点都可能有数据到达,而且速率可能差异很大。同时针对分布式挖掘策略的选择需要考虑的以下几个主要因素,各个站点的计算能力,各个站点的存储能力,站点间的通信开销。因此需要提出适合分布式数据流挖掘的挖掘模型和算法。  本文的研究内容包括了数据流模型的构建、数据流挖掘方法的研究及分布式数据流挖掘框架的探索。基于数据流的特点,建立了基于数据选择的增量式数据流模型,通过构建数据选择的条件,可以实时挑选有价值的数据得以保留。同时提出了历史窗口和滑动窗口相结合的机制,即提高了数据流中数据的处理速度,又很好的减轻了站点的存储压力和计算压力。本文借鉴元学习过程的思路,提出了由三个步骤的组成的分布式元学习挖掘框架,即局部站点学习局部分类模型;基于局部分类模型生成元级的训练数据集;中心站点通过学习元级的训练数据集得出最终的分类模型。  分析了支持向量机(SVM)在分布式环境下进行模型集成的利弊,针对分布式环境下数据分析模型集成的问题和特点,基于支持向量数据描述(SVDD)算法,本文提出了增量式的局部站点支持向量数据描述算法和增量式的全局站点混合式支持向量机算法,分别部署在局部站点和中心站点上。局部站点学习算法负责学习出局部模式的同时,得到需传送到中心站点的元级数据(支持向量及决策超球面的半径和圆心信息),中心站点学习算法负责融合各个局部站点的元级数据,学习出全局模式,同时中心站点根据得到的全局决策超球面的信息指导局部站点的学习。  实验结果表明,本文提出的模型及算法可在局部站点快速更新局部分类模型和减少网络通信量的同时,也可获得较高精度的全局分类模型。
其他文献
多核时代已经到来了。在多核体系下,能够更好的利用多核处理能力的并发数据结构算法得到了广泛应用。并发数据结构往往采用细粒度锁或者是免锁的机制进行同步,而不是使用更传统
随着软件越来越多的应用于许多关键领域、以及软件本身和其运行环境变得越来越复杂,软件可信性引起人们越来越多的关注。人们不仅希望软件系统能够解决现实世界的问题,还希望
按照ISO/IEC12207:1995标准,从合同的角度可将软件项目中的众多干系人(Stakeholder)分为供方和需方两类。供方提供软件产品或服务,通常是软件开发机构;而需方则是采购或使用
生物特征是人独特的生理或行为特征,它被认为是一种比传统身份识别方法(如密码,卡等)更加安全可靠和方便的身份识别手段,并已经逐渐成为国内外的一个研究热点。虽然目前已经有人
随着计算机硬件、多媒体技术和互联网的不断发展,信息的载体正在往多媒体方向发展,youtube、优酷、土豆等视频分享网站十分火热,网络聊天也由从前的文字聊天逐步转变为视频聊天
红外光谱分析技术具有快速、无损、成本低等优点,对固体、液体或气体样品,对单一组分的纯净物和多种组分的混合物都可以测定,已被广泛应用于石油化工、食品工业和制药工业等
本文设计并实现了一个网络共享存储系统,旨在为北京大学软件研究所正在研发的虚拟计算平台UniAS提供分布式文件存储服务。在借鉴既有网络共享存储系统许多优秀设计思想的基础
本文以快速生成三维建筑物模型为目标,研究平面图引导的虚拟环境三维建模问题,重点对建筑平面图的图元几何关系描述、工程符号识别、构件轮廓提取等关键技术进行了深入的研究
随着互联网技术的发展,电子邮件已经成为日常生活中最常用的通讯手段之一。在电子邮件取得巨大发展的同时,垃圾邮件问题也日益严重。垃圾邮件不仅浪费网络资源,干扰人们的正
计算机视觉系统已经广泛地应用于户外场景中,在城市交通监控、航拍、遥感成像等领域都发挥着重要的作用。然而,现有的视觉系统对环境条件非常敏感,如果处理不当会极大地限制和影