云环境下基于极限学习机的XML文档分类的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:LALOVE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML文档分类技术在XML数据管理中具有重要的学术意义和应用价值。如何对XML数据实现基于语义信息和结构信息的快速分类学习是当前热门的研究方向之一。此外,随着互联网技术的发展,基于MapReduce的云计算技术以其强大的并行计算能力,成为海量数据处理中最普及的计算技术。极限学习机(Extreme Learning Machine,ELM)在分类问题上具有极快的学习速度和好的泛化性能,并且已经被证明极限学习机与支持向量机在优化问题的角度上具有一致的优化目标。极限学习机能够使用支持向量机中的核函数以简化支持向量机的计算过程。然而,带有核函数的极限学习机的计算过程主要是矩阵计算,随着训练样本规模的增大,急剧增长的内存消耗将影响计算效率。本文针对海量XML数据规模的分类问题,在MapReduce计算模型的基础上提出了基于核函数的极限学习机的海量XML数据的分布式训练方案。其中,分布式XML表达模型转换算法(MapReduce based Structured Link Vector Model,MR-SLVM)能够快速地将海量XML训练数据转换为能够作为极限学习机输入的表达模型;分布式核函数极限学习机(Distributed Kernelized ELM,DK-ELM)实现了核函数极限学习机的并行训练;采用随机奇异值分解方法(Stochastic Singular Value Decomposition,SSVD)实现分布式矩阵求逆;设计了两个DK-ELM的子算法以确保DK-ELM在MapReduce模型上的并行性,包括分布式径向基核函数(Distributed Radial Basis Function,D-RBF)和分布式矩阵向量乘法(Distributed Matrix-Vector Multiplication,DMXV)。最后,在真实的分布式集群环境中,通过大量真实数据集的实验测试了MR-SLVM和DK-ELM的可扩展性和分类训练性能。实验结果表明,本文提出的训练方案在不影响核函数极限学习机的计算理论的前提下,具有较好的可扩展性。
其他文献
目前,防火墙通过开放或封闭对应P2P协议传输的默认端口达到对P2P应用的控制。由于P2P技术的快速发展,如今的P2P软件能够利用动态端口、HTTP搭载P2P数据、“UDP打洞”等技术穿
本研究旨在建立建筑工程设计信息传递通用模型。通过软件完成该模型的输入,并把模型实例化,可以把研究用于实际工程应用。整个研究经历了由建筑工程信息特性提取到模型建立,
作为现代控制领域中的一个重要分支,基于模糊建模的非线性系统的鲁棒自适应变结构控制技术近年来受到了国内外控制界的广泛重视。本文就此领域的相关问题展开系列研究,主要研
随着中国市场经济的蓬勃发展,合同作为市场经济的重要角色已经得到普遍认可。合同是平等组织之间互相约束权利义务的协议,能够起到规范市场行为,保护经济秩序的重要作用。然
随着软件技术和通信技术不断发展,实时需求开始出现在许多应用领域,如电子商务、信息安全等,如何提供满足要求的实时服务质量(RT-QoS)已成为人们研究的一个热点。实时系统执
人工神经网络(ANN)是一种非线性动力学系统,是生物神经网络在结构、功能及某些基本特性方面的理论抽象和简化,具有分布式信息存储方式和并行的信息处理方式。人工神经网络以其
随着互联网时代的发展,Web应用在人们的生活中越来越发挥其优势。即时通信的出现给人们的生活带来了前所未有的便捷体验,让人们充分体会到了“地球是平的”。所以近年来,Goog
本文设计了一种具有USB接口的LCD图文显示系统,该系统可以通过运行PC端的程序来显示各种信息,比如开机时间、CPU占用率、内存占用率以及Winamp播放器等的各种信息。如果在系
随着网络以及信息技术的迅猛发展和广泛应用,教育信息化成为教育发展的必然途径。然而,在教育资源匮乏的同时,用户日益增长的资源需求与落后的教育资源供给模式之间的矛盾日
  本文在研究现有匿名通信技术的基础上,提出了基于JXTA平台的P2P匿名通信服务JACS。JACS采用重路由和随机转发技术,结合通信代理和匿名通告,提供了双向匿名通信特性,并作为通